“MASHINALI O‘QITISHDA MATNLARNI KATEGORIYALAR YOKI MAVZULAR BOʻYICHA KLASSIFIKATSIYA QILISH USULLARI”

Bekzod  Umarov; Gulshanoy  Satinova

ACADEMIC RESEARCH IN MODERN SCIENCE

International scientific-online conference

85

“MASHINALI O‘QITISHDA MATNLARNI KATEGORIYALAR YOKI

MAVZULAR BOʻYICHA KLASSIFIKATSIYA QILISH USULLARI”

Umarov Bekzod Azizovich

Farg‘ona davlat unversiteti amaliy matematika va informatika

kafedrasi o‘qituvchisi

ubaumarov@mail.ru

Satinova Gulshanoy To‘lanboy qizi

Farg‘ona davlat unversiteti talabasi

satinovagulshanoy@gmail.com

https://doi.org/10.5281/zenodo.14195383

Annotatsiya

Matnlarni kategoriyalar yoki mavzular boʻyicha klassifikatsiya qilish

texnologiyasi sunʼiy intellekt va tabiiy tilni qayta ishlashda muhim rol oʻynaydi.
Ushbu maqola matnlarni toifalashning asosiy usullari, jumladan Naive Bayes,
Matn Vektor Mashinasi (SVM), K-yaqin qoʻshnilar (KNN) va chuqur oʻqitish
(Deep Learning) yondashuvlari, shuningdek, Word2Vec va TF-IDF kabi
vektorlashtirish texnikalarini oʻrganadi. Tadqiqot natijalari ushbu usullarning
matnlarni aniqlik bilan toifalashda samarador ekanligini va ularning ijtimoiy
tarmoqlar, tibbiyot, va taʼlim sohalarida keng qoʻllanish imkoniyatini koʻrsatadi.
Matnlarni toifalashning rivojlanishi katta hajmdagi maʼlumotlarni tahlil qilish va
tartiblashda yuqori samaradorlikka erishish imkoniyatini yaratadi.

Kalit soʻzlar:

matnlarni toifalash, sunʼiy intellekt, tabiiy tilni qayta ishlash,

Naive Bayes, SVM, KNN, Word2Vec, TF-IDF, chuqur oʻqitish, vektorlashtirish,
ijtimoiy tarmoqlar, tibbiyot, taʼlim, algoritmlar, semantik tahlil

Introduction (Kirish)

Bugungi kunda matnlarni kategoriyalash yoki mavzular boʻyicha tasniflash

jarayoni sunʼiy intellekt va tabiiy tilni qayta ishlash (NLP) sohalarida muhim
ahamiyat kasb etadi. Ushbu jarayon turli matnlar tarkibini aniqlash, ularni
tegishli toifalarga ajratish va tartibga solishni maqsad qiladi. Klassifikatsiya
texnologiyasi matnlarni oldindan belgilangan mavzular yoki teglar asosida
guruhlash imkonini berib, koʻplab sohalarda, jumladan elektron pochta spamini
filtrlash, tibbiy maʼlumotlarni ajratish, yangiliklarni mavzular boʻyicha tartiblash
va ijtimoiy tarmoqlardagi xabarlarni kuzatishda qoʻllaniladi. Ushbu jarayon
uchun algoritmlarning samaradorligi va maʼlumotlar toʻplamining toʻgʻri
tuzilishi juda muhimdir. Ushbu maqola matnlarni toifalash usullari, ularni
samarali boshqarish texnikalari va amaliy tadqiqot natijalarini koʻrib chiqishga
qaratilgan.

ACADEMIC RESEARCH IN MODERN SCIENCE

International scientific-online conference

86

Matnlar - inson faoliyatining barcha sohalari uchun asosiy media

hisoblanadi. Har kuni biz koʻplab turli xil matnlar bilan muloqot qilamiz -
yangiliklar, kitoblar, ilmiy maqolalar, ijtimoiy media postlari va hokazo. Bu katta
hajmdagi matnlar oqimini samarali boshqarish uchun ularni kategoriyalash va
klassifikatsiya qilish muhim ahamiyatga ega.

Matnlarni kategoriyalash va tasniflash muammosi turli sohalarda keng

qoʻllaniladi, jumladan, tavsiya tizimlarida, axborot qidiruv tizimlari, reklama,
senzura va boshqalarda. Bu muammoning etakchi echimi matnlarni avtomatik
ravishda aniq kategoriyalarga ajratish hisoblanadi.

Matnlarni avtomatik ravishda klassifikatsiya qilish muammosi juda muhim

va dolzarb masala hisoblanadi. Ushbu muammoning etakchi yechimi matnlarni
aniq kategoriyalar boʻyicha saralash usullaridan iborat.

Methods (Usullar)

Tadqiqotda matnlarni toifalash uchun keng tarqalgan usullar, jumladan

nazoratli va nazoratsiz oʻqitish, vektorlashtirish texnikalari va chuqur oʻqitish
algoritmlari sinovdan oʻtkazildi. Dastlab Naive Bayes va Matn Vektor mashinasi
(SVM) kabi klassifikatsiya algoritmlari oʻrganildi. Naive Bayes algoritmi bayes
statistikasi asosida har bir kalit soʻz yoki iborani tegishli toifaga ajratadi, SVM
esa yuqori samaradorlik bilan ikki oʻlchamli fazoda matnlarni toifalash imkonini
beradi. Shuningdek, K-yaqin qoʻshnilar (KNN) va logistik regressiya usullari
orqali ham matnlarni tasniflash ishlari amalga oshirildi. Matnlarni toifalashda
soʻzlarni raqamli shaklga aylantirish, yaʼni vektorlashtirish muhim ahamiyatga
ega. Tadqiqotda Word2Vec va TF-IDF (Term Frequency-Inverse Document
Frequency) kabi vektorlashtirish texnologiyalari qoʻllanilib, soʻzlarning semantik
aloqalarini tahlil qilish imkoniyati yaratildi. Word2Vec matnlarni semantik
jihatdan tasniflashda yuqori samaradorlik koʻrsatsa, TF-IDF esa matnda koʻp
uchraydigan va ahamiyatli soʻzlarni ajratish orqali toʻgʻri toifalashga yordam
berdi. Bundan tashqari, chuqur oʻqitish usullaridan foydalanib, neyron
tarmoqlar asosida matnlarni toifalash sinovlari oʻtkazildi. Bunda konvolyutsion
neyron tarmoqlar (CNN) qisqa matnlarni, takrorlovchi neyron tarmoqlar (RNN)
esa uzun matnlarni ketma-ketlikda tahlil qilish imkoniyatiga ega ekanligi
koʻrsatildi.

Tadqiqot uchun quyidagi usullar qoʻllanildi:



Supervizorli mashinali oʻrganish algoritmlarini qoʻllash, jumladan,

logistik regression, support vector machines, gradient boosting.



Enskriptlanmagan matnlarni semantik xususiyatlari asosida tasnif

qilish.

ACADEMIC RESEARCH IN MODERN SCIENCE

International scientific-online conference

87



Enskriptlanmagan va enskriptlangan matnlarni birlashtirib

klassifikatsiya qilish.

Results (Natijalar)

Tadqiqot natijalari Naive Bayes va SVM usullarining matnlarni tezkor va

yuqori aniqlik bilan toifalashda samarador ekanligini koʻrsatdi. Ayniqsa, katta
hajmdagi matnlarni tasniflashda bu usullar kuchli natijalar berdi.
Vektorlashtirish texnikalari, xususan, Word2Vec va TF-IDF, matnlarni aniq va
toʻgʻri toifalash imkonini berdi. Ushbu yondashuvlar soʻzlar oʻrtasidagi semantik
bogʻlanishlarni tahlil qilishda yuqori samaradorlik koʻrsatdi, bu esa toifalashning
sifatini sezilarli darajada oshirdi. Chuqur oʻqitish algoritmlari, masalan CNN va
RNN, esa uzundan-uzoq matnlarni kontekstual jihatdan tahlil qilishda yuqori
natijalar berdi. Ijtimoiy tarmoqlar va yangiliklar saytlaridagi matnlar uchun
bunday algoritmlar foydali boʻldi. Sinov natijalarida grafiklar va jadvallar orqali
yuqori aniqlik koʻrsatilgan va algoritmlarning samaradorligi aniqlandi. Tadqiqot
shuni koʻrsatdiki, chuqur oʻqitish usullari matnlarni mavzular boʻyicha
tasniflashda samarali boʻlib, murakkab tuzilmalarga ega matnlar uchun ham
yuqori natijalar beradi.

ACADEMIC RESEARCH IN MODERN SCIENCE

International scientific-online conference

88

Tadqiqot uchun quyidagi usullar qoʻllanildi:



Supervizorli mashinali oʻrganish algoritmlarini qoʻllash, jumladan,

logistik regression, support vector machines, gradient boosting.



Enskriptlanmagan matnlarni semantik xususiyatlari asosida tasnif

qilish.



Enskriptlanmagan va enskriptlangan matnlarni birlashtirib

klassifikatsiya qilish.

Discussion (Munozara)

Tadqiqot natijalariga koʻra, matnlarni toifalash algoritmlari turli sohalarda

keng qoʻllanilishi mumkin. Naive Bayes va SVM kabi algoritmlar oddiy matnlarni
tezkor tasniflashda samarali ishlasa-da, chuqur oʻqitish yondashuvlari murakkab
va kontekstual matnlarni toʻgʻri tasniflashda ustunlik koʻrsatdi. Oldingi
tadqiqotlar bilan taqqoslaganda, bu ishda chuqur oʻqitish algoritmlarining
kontekstual jihatdan aniq toifalash imkoniyatlarini kengaytirganligi koʻrindi.
Bundan tashqari, Word2Vec va TF-IDF texnologiyalarining semantik jihatdan
tahlil qilishdagi roli ham oʻrganildi va oldingi tadqiqotlar natijalari bilan
uygʻunligini koʻrsatdi. Shuningdek, neyron tarmoqlar yordamida matnlarni
chuqur semantik tahlil qilishning toifalash jarayonini yaxshilashga olib kelishi
qayd etildi. Kelajakda matnlarni toifalash samaradorligini oshirish uchun chuqur
semantik tahlil va kontekstual ifodalarni hisobga oluvchi algoritmlar ishlab
chiqish muhim ahamiyat kasb etadi.

Olingan natijalar shuni koʻrsatadiki, matnlarni klassifikatsiya qilish uchun

supervizorli mashinali oʻrganish algoritmlari va semantik xususiyatlardan
foydalanish самарали yechim boʻlishi mumkin. Bunda enskriptlangan matnlarni
ham hisobga olish muhim ahamiyatga ega.

Bundan tashqari, klassifikatsiya qilish uchun foydalaniladigan algoritm va

xususiyatlarni toʻgʻri tanlash ushbu jarayonning samaradorligini oshiradi.
Shuningdek, klassifikatsiya tizimini doimiy ravishda yangilash va sozlash zarur.

Conclusion (Xulosa)

Matnlarni mavzular yoki kategoriyalar boʻyicha

klassifikatsiya qilish zamonaviy sunʼiy intellekt va tabiiy tilni qayta ishlash
texnologiyalarida katta rol oʻynaydi. Tadqiqot davomida Naive Bayes, SVM, KNN,
Word2Vec, TF-IDF kabi usullar va chuqur oʻqitish algoritmlarining
samaradorligi oʻrganildi. Tadqiqot natijalari shuni koʻrsatdiki, matnlarni
muvaffaqiyatli toifalash uchun bir necha usullarning birgalikdagi qoʻllanishi
yuqori natijalar beradi. Kelajakda ushbu jarayonni yanada optimallashtirish va
chuqurroq tahlil qilish uchun chuqur oʻqitish asosidagi yangicha algoritmlar va
soʻzlarni ifodalash texnikalarini rivojlantirish zarur boʻladi. Shu orqali matnlarni

ACADEMIC RESEARCH IN MODERN SCIENCE

International scientific-online conference

89

toifalash texnologiyasi katta hajmdagi matn maʼlumotlarini samarali boshqarish
va tahlil qilishda yuqori natijalar beradi.

Ushbu tadqiqot natijalariga koʻra, matnlarni kategoriyalash va

klassifikatsiya qilish uchun supervizorli mashinali oʻrganish algoritmlari va
semantik xususiyatlardan foydalanish yaxshi samara beradi. Bunda
enskriptlangan matnlarni hisobga olish ham muhimdir. Klassifikatsiya tizimini
doimo yangilash va sozlash zarur.

Foydalanilgan adabiyotlar:

1.

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An

Introduction (2nd ed.). MIT Press.
2.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of

Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
3.

Pedregosa, F., et al. (2011). Scikit-learn: Machine learning in Python.

Journal of Machine Learning Research, 12, 2825-2830.
4.

Kim, Y. (2014). Convolutional neural networks for sentence classification.

arXiv preprint arXiv:1408.5882.
5.

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training

of Deep Bidirectional Transformers for Language Understanding. arXiv preprint
arXiv:1810.04805.
6.

B.Umarov, M.Hakimov., “International journal of scientific researchers”,

“Su’niy intelekt tizimlarida qayta tiklashga asoslangan o‘qitish” 2024y.

“MASHINALI O‘QITISHDA MATNLARNI KATEGORIYALAR YOKI MAVZULAR BOʻYICHA KLASSIFIKATSIYA QILISH USULLARI”

Annotasiya

Кўчирилди

Kalit so‘zlar:

Annotasiya

Bibliografik manbalar