Авторы

  • F.O‘. Toshniyozov
    Muhammad al-Xorazmiy nomidagi ТАТU Sаmarqand filiali assistenti
  • I. Toshxo’jayev
    Muhammad al-Xorazmiy nomidagi ТАТU Sаmarqand filiali talabasi

DOI:

https://doi.org/10.71337/inlibrary.uz.scin.98008

Ключевые слова:

kvantitativ lingvistika korpus dasturiy ta’minot tabiiy tilni qayta ishlash o‘zbek tili statistik tahlil.

Аннотация

Mazkur maqola o‘zbek kvantitativ lingvistikasi sohasida dasturiy ta’minot ishlab chiqish zarurati, metodologiyasi va texnologik yechimlarini o‘rganishga qaratilgan. Tabiiy tilni raqamli tarzda tahlil qilish, ayniqsa o‘zbek tilining statistik ko‘rsatkichlarini aniqlash, korpusga asoslangan tadqiqotlar uchun dasturiy echimlar ishlab chiqish hozirgi zamon lingvistikasi uchun dolzarbdir. Maqolada ushbu yo‘nalishdagi muammolar, mavjud yondashuvlar hamda amaliy dasturiy vosita yaratilishining konseptual modeli bayon etiladi.


background image

ILM-FAN VA INNOVATSIYA

ILMIY-AMALIY KONFERENSIYASI

in-academy.uz/index.php/si

24

O‘ZBEK KVANTITATIV LINGVISTIKASI UCHUN DASTURIY TA’MINOT

ISHLAB CHIQISH

Toshniyozov F.O‘.

Muhammad al-Xorazmiy nomidagi ТАТU Sаmarqand filiali assistenti

farrux_90@umail.uz

Toshxo’jayev I.

Muhammad al-Xorazmiy nomidagi ТАТU Sаmarqand filiali talabasi

islomforever@gmail.com

https://doi.org/10.5281/zenodo.15542724

Annotatsiya

Mazkur maqola o‘zbek kvantitativ lingvistikasi sohasida dasturiy ta’minot ishlab chiqish

zarurati, metodologiyasi va texnologik yechimlarini o‘rganishga qaratilgan. Tabiiy tilni
raqamli tarzda tahlil qilish, ayniqsa o‘zbek tilining statistik ko‘rsatkichlarini aniqlash,
korpusga asoslangan tadqiqotlar uchun dasturiy echimlar ishlab chiqish hozirgi zamon
lingvistikasi uchun dolzarbdir. Maqolada ushbu yo‘nalishdagi muammolar, mavjud
yondashuvlar hamda amaliy dasturiy vosita yaratilishining konseptual modeli bayon etiladi.

Kalit so‘zlar:

kvantitativ lingvistika, korpus, dasturiy ta’minot, tabiiy tilni qayta ishlash,

o‘zbek tili, statistik tahlil.

1. Kirish

Kvantitativ lingvistika — til birliklarini son jihatdan o‘rganadigan ilmiy yo‘nalish bo‘lib,

matnlardagi til elementlari (so‘zlar, morfemalar, gaplar va h.k.)ning chastotasi, taqsimoti,
statistik xususiyatlarini o‘rganadi. Ushbu metodologiya orqali til tuzilmasi haqidagi ob’ektiv,
matematik asoslangan xulosalar chiqariladi.

O‘zbek tilshunosligida kvantitativ yondashuvlar hali to‘laqonli rivojlanmagan. Til

birliklarining statistik tahliliga doir ayrim tadqiqotlar mavjud bo‘lsa-da, ular ko‘proq nazariy
tusda bo‘lib, amaliy dasturiy vositalar yordamida amalga oshirilmaydi. Shu sababli o‘zbek
kvantitativ lingvistikasi uchun zamonaviy, avtomatlashtirilgan dasturiy ta’minot ishlab
chiqish zarurati tug‘iladi.

2. Mavjud holat tahlili

Dunyo miqyosida kvantitativ lingvistika va korpus lingvistikasi uchun ko‘plab dasturiy

vositalar ishlab chiqilgan:

AntConc

(Anthony, 2021) – matnlarni tahlil qilish uchun bepul dasturiy ta’minot;

SketchEngine

– til korpuslarida avtomatik morfosintaktik va semantik tahlil;

NLTK (Natural Language Toolkit)

– Python asosida tabiiy tilni qayta ishlash vositasi;

Voyant Tools

– interaktiv matn tahlili vositasi.

O‘zbek tiliga moslashtirilgan bunday vositalar yetarli emas. Nomaqbul yozuv tizimi,

morfologik murakkablik va korpuslarning kamligi bu borada asosiy muammo hisoblanadi.

3. Maqsad va vazifalar
Maqsad:

O‘zbek tilidagi matnlarni avtomatik tarzda kvantitativ tahlil qiluvchi, yengil

interfeysli va ochiq manbali dasturiy ta’minot yaratish.

Vazifalar:

O‘zbek tilida yozilgan matnlarni tozalash, normallashtirish;

So‘zlar va grammatik birliklarni aniqlash (tokenizatsiya, lemmatizatsiya);

So‘zlar chastotasini hisoblash;


background image

ILM-FAN VA INNOVATSIYA

ILMIY-AMALIY KONFERENSIYASI

in-academy.uz/index.php/si

25

Morfologik tahlil qilish (word-tagging);

Vizualizatsiya: grafik va diagrammalar hosil qilish.

4. Amaliy yechim: Dasturning arxitekturasi

Ishlab chiqiladigan dastur quyidagi texnologiyalar asosida bo‘lishi mumkin:

Frontend:

React.js yoki Vue.js — foydalanuvchi interfeysi uchun;

Backend:

Python (Flask/Django) — tahlil logikasini amalga oshirish;

NLP kutubxonalar:

Stanza (Stanford), spaCy, yoki Hunspell o‘zbek morfologiyasi uchun

sozlangan;

Ma’lumotlar bazasi:

PostgreSQL — tahlil natijalarini saqlash;

Korpus:

O‘zbek tilidagi matnlar (Wikipedia, O‘zbek Klassik adabiyoti, OAV matnlari va

h.k.).

Natijada dastur foydalanuvchiga quyidagilarni taqdim etadi:

Matn bo‘yicha statistik hisobot (so‘zlar soni, unikal so‘zlar, eng ko‘p ishlatilgan birliklar);

So‘z buluti (word cloud);

Morfologik tahlil jadvallari;

Eksport qilish imkoniyati (.csv, .json, .xlsx).

5. Xulosa

O‘zbek tilshunosligida kvantitativ tadqiqotlar chuqur metodologiyaga asoslangan,

avtomatlashtirilgan vositalar bilan qo‘llab-quvvatlanmasa, global lingvistik jarayonda orqada
qolish xavfi tug‘iladi. Mazkur dasturiy yechim nafaqat ilmiy izlanishlar uchun, balki ta’lim,
tarjima, til siyosati, leksikografiya, sun’iy intellektda o‘zbek tilining qo‘llanilishi uchun ham
muhim zamin yaratadi. Shu jihatdan, O‘zbek kvantitativ lingvistikasi uchun innovatsion va
ochiq manbali dastur ishlab chiqish dolzarb va istiqbolli vazifadir.

References:

Используемая литература:

Foydalanilgan adabiyotlar:

1.

Anthony,

L.

(2021).

AntConc

(Version

4.0.2).

Waseda

University.

http://www.laurenceanthony.net/software/antconc/
2.

Gries, S. T. (2009). Quantitative corpus linguistics with R. Routledge.

3.

Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., & McClosky, D. (2014). The

Stanford CoreNLP Natural Language Processing Toolkit. ACL System Demonstrations.
4.

O‘zbekiston Respublikasi Fanlar akademiyasi Til va adabiyot instituti. (2022). O‘zbek

tilining zamonaviy korpusi: asosiy tamoyillar va tajribalar. Toshkent.
5.

Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., & Suchomel, V.

(2014). The Sketch Engine: ten years on. Lexicography, 1(1), 7–36.
6.

Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed., draft).

Stanford

Библиографические ссылки

Anthony, L. (2021). AntConc (Version 4.0.2). Waseda University. http://www.laurenceanthony.net/software/antconc/

Gries, S. T. (2009). Quantitative corpus linguistics with R. Routledge.

Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., & McClosky, D. (2014). The Stanford CoreNLP Natural Language Processing Toolkit. ACL System Demonstrations.

O‘zbekiston Respublikasi Fanlar akademiyasi Til va adabiyot instituti. (2022). O‘zbek tilining zamonaviy korpusi: asosiy tamoyillar va tajribalar. Toshkent.

Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., & Suchomel, V. (2014). The Sketch Engine: ten years on. Lexicography, 1(1), 7–36.

Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed., draft). Stanford