ACADEMIC RESEARCH IN MODERN SCIENCE
International scientific-online conference
85
“MASHINALI O‘QITISHDA MATNLARNI KATEGORIYALAR YOKI
MAVZULAR BOʻYICHA KLASSIFIKATSIYA QILISH USULLARI”
Umarov Bekzod Azizovich
Farg‘ona davlat unversiteti amaliy matematika va informatika
kafedrasi o‘qituvchisi
Satinova Gulshanoy To‘lanboy qizi
Farg‘ona davlat unversiteti talabasi
https://doi.org/10.5281/zenodo.14195383
Annotatsiya
Matnlarni kategoriyalar yoki mavzular boʻyicha klassifikatsiya qilish
texnologiyasi sunʼiy intellekt va tabiiy tilni qayta ishlashda muhim rol oʻynaydi.
Ushbu maqola matnlarni toifalashning asosiy usullari, jumladan Naive Bayes,
Matn Vektor Mashinasi (SVM), K-yaqin qoʻshnilar (KNN) va chuqur oʻqitish
(Deep Learning) yondashuvlari, shuningdek, Word2Vec va TF-IDF kabi
vektorlashtirish texnikalarini oʻrganadi. Tadqiqot natijalari ushbu usullarning
matnlarni aniqlik bilan toifalashda samarador ekanligini va ularning ijtimoiy
tarmoqlar, tibbiyot, va taʼlim sohalarida keng qoʻllanish imkoniyatini koʻrsatadi.
Matnlarni toifalashning rivojlanishi katta hajmdagi maʼlumotlarni tahlil qilish va
tartiblashda yuqori samaradorlikka erishish imkoniyatini yaratadi.
Kalit soʻzlar:
matnlarni toifalash, sunʼiy intellekt, tabiiy tilni qayta ishlash,
Naive Bayes, SVM, KNN, Word2Vec, TF-IDF, chuqur oʻqitish, vektorlashtirish,
ijtimoiy tarmoqlar, tibbiyot, taʼlim, algoritmlar, semantik tahlil
Introduction (Kirish)
Bugungi kunda matnlarni kategoriyalash yoki mavzular boʻyicha tasniflash
jarayoni sunʼiy intellekt va tabiiy tilni qayta ishlash (NLP) sohalarida muhim
ahamiyat kasb etadi. Ushbu jarayon turli matnlar tarkibini aniqlash, ularni
tegishli toifalarga ajratish va tartibga solishni maqsad qiladi. Klassifikatsiya
texnologiyasi matnlarni oldindan belgilangan mavzular yoki teglar asosida
guruhlash imkonini berib, koʻplab sohalarda, jumladan elektron pochta spamini
filtrlash, tibbiy maʼlumotlarni ajratish, yangiliklarni mavzular boʻyicha tartiblash
va ijtimoiy tarmoqlardagi xabarlarni kuzatishda qoʻllaniladi. Ushbu jarayon
uchun algoritmlarning samaradorligi va maʼlumotlar toʻplamining toʻgʻri
tuzilishi juda muhimdir. Ushbu maqola matnlarni toifalash usullari, ularni
samarali boshqarish texnikalari va amaliy tadqiqot natijalarini koʻrib chiqishga
qaratilgan.
ACADEMIC RESEARCH IN MODERN SCIENCE
International scientific-online conference
86
Matnlar - inson faoliyatining barcha sohalari uchun asosiy media
hisoblanadi. Har kuni biz koʻplab turli xil matnlar bilan muloqot qilamiz -
yangiliklar, kitoblar, ilmiy maqolalar, ijtimoiy media postlari va hokazo. Bu katta
hajmdagi matnlar oqimini samarali boshqarish uchun ularni kategoriyalash va
klassifikatsiya qilish muhim ahamiyatga ega.
Matnlarni kategoriyalash va tasniflash muammosi turli sohalarda keng
qoʻllaniladi, jumladan, tavsiya tizimlarida, axborot qidiruv tizimlari, reklama,
senzura va boshqalarda. Bu muammoning etakchi echimi matnlarni avtomatik
ravishda aniq kategoriyalarga ajratish hisoblanadi.
Matnlarni avtomatik ravishda klassifikatsiya qilish muammosi juda muhim
va dolzarb masala hisoblanadi. Ushbu muammoning etakchi yechimi matnlarni
aniq kategoriyalar boʻyicha saralash usullaridan iborat.
Methods (Usullar)
Tadqiqotda matnlarni toifalash uchun keng tarqalgan usullar, jumladan
nazoratli va nazoratsiz oʻqitish, vektorlashtirish texnikalari va chuqur oʻqitish
algoritmlari sinovdan oʻtkazildi. Dastlab Naive Bayes va Matn Vektor mashinasi
(SVM) kabi klassifikatsiya algoritmlari oʻrganildi. Naive Bayes algoritmi bayes
statistikasi asosida har bir kalit soʻz yoki iborani tegishli toifaga ajratadi, SVM
esa yuqori samaradorlik bilan ikki oʻlchamli fazoda matnlarni toifalash imkonini
beradi. Shuningdek, K-yaqin qoʻshnilar (KNN) va logistik regressiya usullari
orqali ham matnlarni tasniflash ishlari amalga oshirildi. Matnlarni toifalashda
soʻzlarni raqamli shaklga aylantirish, yaʼni vektorlashtirish muhim ahamiyatga
ega. Tadqiqotda Word2Vec va TF-IDF (Term Frequency-Inverse Document
Frequency) kabi vektorlashtirish texnologiyalari qoʻllanilib, soʻzlarning semantik
aloqalarini tahlil qilish imkoniyati yaratildi. Word2Vec matnlarni semantik
jihatdan tasniflashda yuqori samaradorlik koʻrsatsa, TF-IDF esa matnda koʻp
uchraydigan va ahamiyatli soʻzlarni ajratish orqali toʻgʻri toifalashga yordam
berdi. Bundan tashqari, chuqur oʻqitish usullaridan foydalanib, neyron
tarmoqlar asosida matnlarni toifalash sinovlari oʻtkazildi. Bunda konvolyutsion
neyron tarmoqlar (CNN) qisqa matnlarni, takrorlovchi neyron tarmoqlar (RNN)
esa uzun matnlarni ketma-ketlikda tahlil qilish imkoniyatiga ega ekanligi
koʻrsatildi.
Tadqiqot uchun quyidagi usullar qoʻllanildi:
Supervizorli mashinali oʻrganish algoritmlarini qoʻllash, jumladan,
logistik regression, support vector machines, gradient boosting.
Enskriptlanmagan matnlarni semantik xususiyatlari asosida tasnif
qilish.
ACADEMIC RESEARCH IN MODERN SCIENCE
International scientific-online conference
87
Enskriptlanmagan va enskriptlangan matnlarni birlashtirib
klassifikatsiya qilish.
Results (Natijalar)
Tadqiqot natijalari Naive Bayes va SVM usullarining matnlarni tezkor va
yuqori aniqlik bilan toifalashda samarador ekanligini koʻrsatdi. Ayniqsa, katta
hajmdagi matnlarni tasniflashda bu usullar kuchli natijalar berdi.
Vektorlashtirish texnikalari, xususan, Word2Vec va TF-IDF, matnlarni aniq va
toʻgʻri toifalash imkonini berdi. Ushbu yondashuvlar soʻzlar oʻrtasidagi semantik
bogʻlanishlarni tahlil qilishda yuqori samaradorlik koʻrsatdi, bu esa toifalashning
sifatini sezilarli darajada oshirdi. Chuqur oʻqitish algoritmlari, masalan CNN va
RNN, esa uzundan-uzoq matnlarni kontekstual jihatdan tahlil qilishda yuqori
natijalar berdi. Ijtimoiy tarmoqlar va yangiliklar saytlaridagi matnlar uchun
bunday algoritmlar foydali boʻldi. Sinov natijalarida grafiklar va jadvallar orqali
yuqori aniqlik koʻrsatilgan va algoritmlarning samaradorligi aniqlandi. Tadqiqot
shuni koʻrsatdiki, chuqur oʻqitish usullari matnlarni mavzular boʻyicha
tasniflashda samarali boʻlib, murakkab tuzilmalarga ega matnlar uchun ham
yuqori natijalar beradi.
ACADEMIC RESEARCH IN MODERN SCIENCE
International scientific-online conference
88
Tadqiqot uchun quyidagi usullar qoʻllanildi:
Supervizorli mashinali oʻrganish algoritmlarini qoʻllash, jumladan,
logistik regression, support vector machines, gradient boosting.
Enskriptlanmagan matnlarni semantik xususiyatlari asosida tasnif
qilish.
Enskriptlanmagan va enskriptlangan matnlarni birlashtirib
klassifikatsiya qilish.
Discussion (Munozara)
Tadqiqot natijalariga koʻra, matnlarni toifalash algoritmlari turli sohalarda
keng qoʻllanilishi mumkin. Naive Bayes va SVM kabi algoritmlar oddiy matnlarni
tezkor tasniflashda samarali ishlasa-da, chuqur oʻqitish yondashuvlari murakkab
va kontekstual matnlarni toʻgʻri tasniflashda ustunlik koʻrsatdi. Oldingi
tadqiqotlar bilan taqqoslaganda, bu ishda chuqur oʻqitish algoritmlarining
kontekstual jihatdan aniq toifalash imkoniyatlarini kengaytirganligi koʻrindi.
Bundan tashqari, Word2Vec va TF-IDF texnologiyalarining semantik jihatdan
tahlil qilishdagi roli ham oʻrganildi va oldingi tadqiqotlar natijalari bilan
uygʻunligini koʻrsatdi. Shuningdek, neyron tarmoqlar yordamida matnlarni
chuqur semantik tahlil qilishning toifalash jarayonini yaxshilashga olib kelishi
qayd etildi. Kelajakda matnlarni toifalash samaradorligini oshirish uchun chuqur
semantik tahlil va kontekstual ifodalarni hisobga oluvchi algoritmlar ishlab
chiqish muhim ahamiyat kasb etadi.
Olingan natijalar shuni koʻrsatadiki, matnlarni klassifikatsiya qilish uchun
supervizorli mashinali oʻrganish algoritmlari va semantik xususiyatlardan
foydalanish самарали yechim boʻlishi mumkin. Bunda enskriptlangan matnlarni
ham hisobga olish muhim ahamiyatga ega.
Bundan tashqari, klassifikatsiya qilish uchun foydalaniladigan algoritm va
xususiyatlarni toʻgʻri tanlash ushbu jarayonning samaradorligini oshiradi.
Shuningdek, klassifikatsiya tizimini doimiy ravishda yangilash va sozlash zarur.
Conclusion (Xulosa)
Matnlarni mavzular yoki kategoriyalar boʻyicha
klassifikatsiya qilish zamonaviy sunʼiy intellekt va tabiiy tilni qayta ishlash
texnologiyalarida katta rol oʻynaydi. Tadqiqot davomida Naive Bayes, SVM, KNN,
Word2Vec, TF-IDF kabi usullar va chuqur oʻqitish algoritmlarining
samaradorligi oʻrganildi. Tadqiqot natijalari shuni koʻrsatdiki, matnlarni
muvaffaqiyatli toifalash uchun bir necha usullarning birgalikdagi qoʻllanishi
yuqori natijalar beradi. Kelajakda ushbu jarayonni yanada optimallashtirish va
chuqurroq tahlil qilish uchun chuqur oʻqitish asosidagi yangicha algoritmlar va
soʻzlarni ifodalash texnikalarini rivojlantirish zarur boʻladi. Shu orqali matnlarni
ACADEMIC RESEARCH IN MODERN SCIENCE
International scientific-online conference
89
toifalash texnologiyasi katta hajmdagi matn maʼlumotlarini samarali boshqarish
va tahlil qilishda yuqori natijalar beradi.
Ushbu tadqiqot natijalariga koʻra, matnlarni kategoriyalash va
klassifikatsiya qilish uchun supervizorli mashinali oʻrganish algoritmlari va
semantik xususiyatlardan foydalanish yaxshi samara beradi. Bunda
enskriptlangan matnlarni hisobga olish ham muhimdir. Klassifikatsiya tizimini
doimo yangilash va sozlash zarur.
Foydalanilgan adabiyotlar:
1.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An
Introduction (2nd ed.). MIT Press.
2.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of
Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
3.
Pedregosa, F., et al. (2011). Scikit-learn: Machine learning in Python.
Journal of Machine Learning Research, 12, 2825-2830.
4.
Kim, Y. (2014). Convolutional neural networks for sentence classification.
arXiv preprint arXiv:1408.5882.
5.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training
of Deep Bidirectional Transformers for Language Understanding. arXiv preprint
arXiv:1810.04805.
6.
B.Umarov, M.Hakimov., “International journal of scientific researchers”,
“Su’niy intelekt tizimlarida qayta tiklashga asoslangan o‘qitish” 2024y.
