156
YANGI O'ZBEKISTON ILMIY
TADQIQOTLAR JURNALI
www.in-academy.uz
1-JILD, 13-SON (YOʻITJ)
TASNIFLASH VA KLASTERLASH
Tojimamatov Isroil Nurmamatovich
Farg’ona davlat unversiteti o‘qituvchi
ru
Abduhakimova Xusnora Abdusamad qizi
Farg’ona davlat unversiteti talabasi
https://doi.org/10.5281/zenodo.14259949
ARTICLE INFO
ABSTRACT
Qabul qilindi: 9-noyabr 2024 yil
Ma’qullandi: 19-noyabr 2024 yil
Nashr qilindi: 30-noyabr 2024 yil
Ushbu maqolada tasniflash va klasterlash usullari
ma'lumotlarni tahlil qilishda qo‘llaniladigan muhim
texnikalar sifatida ko‘rib chiqiladi. Tasniflash
nazorat
ostidagi
o‘rgatish
usuli
bo‘lib,
ma'lumotlarni
oldindan
belgilangan
kategoriyalarga ajratishni o‘z ichiga oladi. Bu
jarayonda o‘rgatish namunalar asosida model
yaratiladi va yangi ma'lumotlar tegishli sinflarga
taqsimlanadi. Klasterlash esa nazorat ostida
bo‘lmagan o‘rgatish usuli bo‘lib, ma'lumotlarni
yashirin
o‘xshashliklar
yoki
tuzilmalarga
asoslangan holda guruhlash imkonini beradi. Ushbu
usul K-means, hierarchik klasterlash va DBSCAN
kabi algoritmlar yordamida amalga oshiriladi.
Maqolada tasniflash va klasterlashning marketing,
tibbiyot, texnologik nosozliklarni aniqlash kabi
sohalardagi qo‘llanilishi ko‘rib chiqilib, ushbu
texnologiyalarning samaradorlik va ilmiy-texnik
rivojlanishga qo‘shayotgan hissasi yoritilgan.
Ma'lumotlarni tahlil qilishdagi bu usullar bilimlarni
aniqlash va qaror qabul qilish jarayonini yanada
takomillashtiradi.
KEY WORDS
Tasniflash,
klasterlash,
ma'lumotlarni
tahlil
qilish,
nazorat ostida o‘rgatish, nazorat
ostida
bo‘lmagan
o‘rgatish,
kategoriyalar,
K-means,
Hierarchik klasterlash, DBSCAN,
marketing, tibbiyot, biometrik
tahlil, texnik nosozliklar, qaror
qabul
qilish,
ma'lumotlar
guruhlanishi, o’xshashliklar tahlili,
ilmiy
izlanish,
texnologik
rivojlanish.
Klasterlash usuli - bu bir guruhdagi ob'ektlar to'plamini boshqa tarmoqlardagi ob'ektlarga
qaraganda bir-biriga o'xshash tarzda guruhlash vazifasi. Bu maʼlumotlarni qidirishning asosiy
vazifasi va koʻplab sohalarda qoʻllaniladigan umumiy statistik tahlil texnikasi, jumladan,
mashinani oʻrganish, naqshni aniqlash, tasvirni aniqlash, axborotni qidirish, maʼlumotlarni
siqish va kompyuter grafikasi.
Klasterlash usulining oʻzi bitta aniq algoritm emas, balki hal qilinishi kerak boʻlgan umumiy
vazifadir. Bunga guruh nimadan iboratligini va uni qanday samarali topishni tushunishda
sezilarli darajada farq qiluvchi turli xil algoritmlar yordamida erishish mumkin.
Metamavzularni shakllantirish uchun klasterlash usulidan foydalanish guruhdan
foydalanishni o'z ichiga oladia'zolar orasidagi kichik masofalar, bo'shliqning zich hududlari,
intervallar yoki ma'lum statistik taqsimotlar. Shuning uchun klasterlash ko‘p maqsadli
optimallashtirish muammosi sifatida shakllantirilishi mumkin.
Tegishli usul va parametr sozlamalari (jumladan, foydalaniladigan masofa funksiyasi, zichlik
chegarasi yoki kutilayotgan klasterlar soni kabi elementlar) individual maʼlumotlar toʻplamiga
va natijalardan maqsadli foydalanishga bogʻliq. Tahlil avtomatik vazifa emas, balki bilimlarni
157
YANGI O'ZBEKISTON ILMIY
TADQIQOTLAR JURNALI
www.in-academy.uz
1-JILD, 13-SON (YOʻITJ)
kashf qilish yoki interaktiv ko'p maqsadli optimallashtirishning iterativ jarayonidir. Ushbu
klasterlash usuli sinov va xato urinishlarini o'z ichiga oladi. Natija kerakli xususiyatlarga
erishilgunga qadar tez-tez ma'lumotlarni qayta ishlash va model parametrlarini o'zgartirish
kerak bo'ladi. “Klasterlash” atamasi bilan bir qatorda avtomatik tasnif, sonli taksonomiya,
botriologiya va tipologik tahlil kabi ma’nolari o’xshash bir qancha so’zlar ham mavjud. Nozik
farqlar ko'pincha metasub'ekt munosabatlarini shakllantirish uchun klasterlash usulidan
foydalanishda yotadi. Ma'lumot olishda natijada paydo bo'lgan guruhlar qiziqish uyg'otsa-da,
avtomatik tasniflashda bu funktsiyalarni bajaradigan diskriminatsion kuch allaqachon mavjud.
Klaster tahlili 1932-yilda Kroberning koʻplab ishlariga asoslangan edi. U 1938 yilda Zubin va
1939 yilda Robert Tryon tomonidan psixologiyaga kiritilgan. Va bu ishlardan Cattell 1943
yildan beri nazariy jihatdan klasterlash usullarining tasnifini ko'rsatish uchun ishlatib
kelinmoqda."Klaster" tushunchasiga aniq ta'rif berib bo'lmaydi. Bu juda ko'p klasterlash
usullari mavjudligining sabablaridan biridir. Umumiy maxraj mavjud: ma'lumotlar ob'ektlari
guruhi. Biroq, turli tadqiqotchilar turli modellardan foydalanadilar. Klasterlash usullaridan
foydalanishning har biri turli ma'lumotlarni o'z ichiga oladi. Turli xil algoritmlar tomonidan
topilgan tushuncha o'z xususiyatlarida sezilarli darajada farqlanadi.
Klasterlash usuli-ushbu ittifoq oʻz nomi bilan ham tanilgan, ierarxik model. U ob'ektlar
uzoqroqda joylashgan qismlarga qaraganda qo'shni qismlarga ko'proq bog'langan degan
odatiy fikrga asoslanadi. Bu algoritmlar ob'ektlarni bir-biriga bog'lab, ularning masofasiga
qarab turli klasterlarni hosil qiladi. Klasterlashning asosiy xususiyatlari:
1. Nazoratsiz o‘rganish: Ma'lumotlarda oldindan belgilar (label) mavjud emas.
2. Guruhlash: Ma'lumot bir-biriga o‘xshashlik yoki masofaga qarab guruhlanadi.
3. O‘xshashlik o‘lchovi: Klasterlashda ob'ektlar orasidagi o‘xshashlik masofa (masalan, Evklid
masofasi) orqali aniqlanadi.
Qanday ishlaydi?
1. Ma'lumotlar yig‘ish: Dastlab ma'lumot to‘plami tayyorlanadi.
2. Xususiyatlar aniqlash: Har bir ob'ektning xususiyatlari (features) tanlanadi.
3. Klasterlarni ajratish: Algoritm ma'lumotlarni o‘ziga xos guruhlarga ajratadi.
4. Guruhlarni baholash: Olingan klasterlar foydalanuvchi maqsadlariga muvofiqmi,
tekshiriladi.
Klasterlashning qo‘llanilishi:
Mijoz segmentatsiyasi: Xaridorlarni ularning xarid qilish xatti-harakatlariga qarab guruhlash.
Bozor tahlili: Bir xil xususiyatga ega mahsulotlarni bir guruhga ajratish.
Tibbiyot: Kasallikni simptomlariga qarab klasterlash.
Rasm va video tahlili: Bir xil ob'ektlar mavjud rasmlarni guruhlash.
Geografiya: Shaharlarni iqlim, aholi yoki hudud xususiyatlariga qarab bo‘lish.
Mashhur klasterlash algoritmlari:
1. K-means: Klasterlar markazini aniqlab, ma'lumotlarni unga yaqinlik bo‘yicha ajratadi.
2. Ierarxik klasterlash (Hierarchical Clustering): Daraxt shaklidagi klasterlar tuzadi.
3. DBSCAN (Density-Based Spatial Clustering): Yig‘ilgan (kuchli zichlikdagi) klasterlarni
aniqlaydi.
4. Gaussian Mixture Models: Ma'lumotlarni statistik ehtimollik asosida bo‘ladi.
Guruhni asosan klasterning turli qismlarini ulash uchun zarur bo'lgan maksimal masofa bilan
tavsiflash mumkin. Barcha mumkin bo'lgan masofalarda dendrogramma yordamida
ifodalanishi mumkin bo'lgan boshqa guruhlar hosil bo'ladi. Bu "ierarxik klasterlash" umumiy
nomi qayerdan kelganligini tushuntiradi. Ya'ni, bu algoritmlar ma'lumotlar to'plamining
yagona bo'limini ta'minlamaydi, aksincha, vakolatning keng tartibini ta'minlaydi. Unga rahmat,
ma'lum masofalarda bir-biri bilan drenaj mavjud. Dendrogrammada y o'qi klasterlarning
birikish masofasini bildiradi. Guruhlar aralashmasligi uchun ob'ektlar X chizig'i bo'ylab
joylashtirilgan.
158
YANGI O'ZBEKISTON ILMIY
TADQIQOTLAR JURNALI
www.in-academy.uz
1-JILD, 13-SON (YOʻITJ)
Ulanishga asoslangan klasterlash - bu masofalarni hisoblashda farq qiluvchi usullarning butun
oilasi. Masofa funktsiyalarining odatiy tanlovidan tashqari, foydalanuvchi ulanish mezonini
ham hal qilishi kerak. Klaster bir nechta ob'ektlardan iborat bo'lganligi sababli, uni
hisoblashning ko'plab variantlari mavjud. Ommabop tanlov bitta tutqichli guruhlash deb
nomlanadi, bu usulUPGMA yoki WPGMA ni o'z ichiga olgan to'liq havola (o'rtacha arifmetik
bo'lgan, shuningdek, o'rtacha havola klasteri sifatida ham tanilgan, vaznsiz yoki vaznli juftlik
ansambli). Bundan tashqari, ierarxik tizim aglomerativ (alohida elementlardan boshlab va
ularni guruhlarga birlashtirish) yoki bo‘linuvchi (to‘liq ma’lumotlar to‘plamidan boshlab va
uni bo‘limlarga bo‘lish) bo‘lishi mumkin.
Taqsimlangan klasterlash
Bu modellar boʻlinishlarga asoslangan statistik maʼlumotlar bilan chambarchas bogʻliq.
Klasterlarni bir xil taqsimotga tegishli bo'lgan ob'ektlar sifatida osongina aniqlash mumkin.
Ushbu yondashuvning qulay xususiyati shundaki, u sun'iy ma'lumotlar to'plamini yaratish
usuliga juda o'xshaydi. Taqsimotdan tasodifiy ob'ektlarni tanlash orqali.
Ushbu usullarning nazariy asoslari mukammal boʻlsa-da, modelning murakkabligiga
cheklovlar qoʻyilmasa, ular haddan tashqari moslashish deb nomlanuvchi asosiy muammodan
aziyat chekadi. Kattaroq assotsiatsiya odatda maʼlumotlarni yaxshiroq tushuntiradi, bu esa
toʻgʻri usulni tanlashni qiyinlashtiradi.
Zichlikka asoslangan klasterlash
Ushbu misolda guruhlar asosan maʼlumotlar toʻplamining qolgan qismiga qaraganda yuqori
oʻtkazuvchanlikka ega boʻlgan hududlar sifatida belgilangan. Barcha komponentlarni ajratish
uchun zarur boʻlgan ushbu noyob qismlardagi obyektlar odatda shovqin va chekka nuqtalar
hisoblanadi.
Eng mashhur zichlikka asoslangan klasterlash usuli DBSCAN (Spatial Noise Clustering
Algoritm) hisoblanadi. Ko'pgina yangi usullardan farqli o'laroq, u "zichlikka erishish
imkoniyati" deb nomlangan aniq belgilangan klaster komponentiga ega. Bog'lanishga
asoslangan klasterlash kabi, u ma'lum masofa chegaralaridagi ulanish nuqtalariga asoslanadi.
Biroq, bu usul faqat zichlik mezoniga javob beradigan narsalarni to'playdi. Ushbu radiusdagi
boshqa ob'ektlarning minimal soni sifatida belgilangan asl versiyada klaster barcha
elementlardan iborat.zichlikka oid elementlar (boshqa usullardan farqli ravishda erkin
shakldagi guruhni tashkil qilishi mumkin) va ruxsat etilgan diapazondagi barcha ob'ektlar.
DBSCAN
-ning yana bir qiziqarli xususiyati shundaki, uning murakkabligi ancha past - bu
ma'lumotlar bazasiga nisbatan chiziqli qator so'rovlarni talab qiladi. Va g'ayrioddiy narsa
shundaki, u har bir ishda deyarli bir xil natijalarni topadi (bu asosiy va shovqin nuqtalari
uchun deterministik, lekin chegara elementlari uchun emas). Shuning uchun uni bir necha
marta ishga tushirishning hojati yo'q.
DBSCAN va OPTICS ning asosiy kamchiligi shundaki, ular klaster chegaralarini aniqlash uchun
zichlikning biroz pasayishini kutishadi. Masalan, Gauss taqsimotlari bir-biriga o'xshash
bo'lgan ma'lumotlar to'plamlarida - sun'iy ob'ektlar uchun umumiy foydalanish holati - bu
algoritmlar tomonidan yaratilgan klaster chegaralari ko'pincha o'zboshimchalik bilan
ko'rinadi. Bu guruhlarning zichligi doimiy ravishda kamayib borayotganligi sababli sodir
bo'ladi. Va Gauss aralashmasi ma'lumotlar to'plamida bu algoritmlar deyarli har doim bunday
tizimlarni aniq modellashtirishga qodir bo'lgan EM klasterlash kabi usullardan ustun turadi.
Oʻrtacha siljish - bu klasterlash usuli boʻlib, unda har bir obʼyekt butun yadroni baholash
asosida yaqin atrofdagi eng zich hududga oʻtadi. Oxir-oqibat, ob'ektlar mahalliy o'tkazmaslik
maksimallariga yaqinlashadi. K-vositalari klasterlashiga o'xshab, bu "zichlik jalb qiluvchilar"
ma'lumotlar to'plamining vakili bo'lib xizmat qilishi mumkin. Ammo o'rtacha siljishDBSCAN
ga o'xshash o'zboshimchalik bilan shakllangan klasterlarni aniqlay oladi. Qimmatbaho iterativ
protsedura va zichlikni baholash tufayli o'rtacha siljish odatda DBSCAN yoki k-Means ga
qaraganda sekinroq bo'ladi. Bundan tashqari, odatdagi siljish algoritmini yuqori o'lchamli
159
YANGI O'ZBEKISTON ILMIY
TADQIQOTLAR JURNALI
www.in-academy.uz
1-JILD, 13-SON (YOʻITJ)
ma'lumotlarga qo'llash yadro zichligi taxminining bir xil bo'lmagan harakati tufayli qiyin, bu
klaster dumlarining haddan tashqari parchalanishiga olib keladi.
Tasniflash (classification) – ma'lumotlarni oldindan belgilangan toifalarga ajratish
jarayonidir. Bu usul nazoratli o‘rganishga asoslangan bo‘lib, ma’lumotning har bir bo‘lagi
o‘ziga xos toifa (klass) bilan belgilanadi.
Tasniflashning asosiy xususiyatlari:
1. Supervayz o‘rganish: Modelni o‘rgatish uchun belgilangan ma'lumot (label) kerak bo‘ladi.
2. Toifalar: Oldindan aniqlangan kategoriyalar mavjud.
3. Masala turi: Model kiritilgan ma'lumotni qaysi kategoriya (klass)ga tegishli ekanini taxmin
qiladi.
Qanday ishlaydi?
1. Ma’lumotlarni tayyorlash: Ma’lumotlar to‘plami kirish xususiyatlari (features) va natija
toifasiga (label) bo‘linadi.
2. Modelni o‘rgatish: Belgilangan ma’lumotlar yordamida algoritm o‘qitiladi.
3. Test qilish: Model yangi ma'lumotni sinab ko‘rish orqali to‘g‘ri toifalashni o‘rganadi.
4. Foydalanish: Model yangi kelgan ma'lumotni avtomatik toifalash uchun ishlatiladi.
Tasniflashning qo‘llanilishi:
Elektron pochta xabarlarini spam va oddiy xabar deb ajratish.
Tibbiyotda kasalliklarni tashxislash.
Bankda kredit olish imkoniyatini baholash.
Rasmlarni qaysi ob'ektni tasvirlashiga qarab guruhlash.
Tasniflashning mashhur algoritmlari:
1. Logistik regressiya
2. K yaqin qo‘shnilar usuli (KNN)
3. Qaror daraxtlari (Decision Trees)
4. Random Forest
5. Neyron tarmoqlar (Neural Networks)
NATIJA:
Tasniflash va klasterlash ma'lumotlarni tahlil qilishda muhim rol o'ynaydi. Tasniflash
algoritmlari ma'lumotlarni belgilangan kategoriyalarga ajratish orqali masalalarni hal qilishga
yordam beradi, masalan, elektron pochta xabarlarini spam va oddiy guruhlarga ajratish.
Klasterlash esa, ma'lumotni tabiiy guruhlarga ajratib, yashirin xususiyatlarni aniqlash
imkonini beradi, masalan, mijozlarni xarid qilish xulq-atvoriga qarab segmentlarga bo'lish.
Mazkur usullarni qo‘llash orqali ma'lumotlar tahlilining samaradorligi oshadi, murakkab
muammolarni yechish imkoniyati paydo bo‘ladi va qaror qabul qilish jarayonlari
takomillashadi. Shuningdek, klasterlash va tasniflash algoritmlarining to‘g‘ri tanlanishi,
ma’lumotlarning sifati va hajmiga bog‘liq bo‘lib, bu esa natijaning aniqligini belgilaydi.
XULOSA:
Tasniflash va klasterlash texnikalari ma'lumotlar tahlilining nazoratli va nazoratsiz o‘rganish
usullariga asoslanib, bir-birini to‘ldiradi. Tasniflash o‘z aniq maqsadlariga erishish uchun
oldindan belgilangan toifalardan foydalansa, klasterlash yangi ma'lumotlar guruhlarini
aniqlash uchun ishlatiladi. Zamonaviy texnologiyalar bilan birga ushbu usullar tibbiyot, savdo,
marketing, muhandislik, ilmiy tadqiqot va boshqa sohalarda keng qo‘llanilmoqda. Tasniflash
va klasterlash algoritmlarini samarali qo‘llash orqali katta ma'lumotlardan (big data) yanada
ko‘proq foydali ma'lumotlar olish mumkin. Kelajakda ushbu usullarni rivojlantirish sun'iy
intellekt, mashinaviy o‘qitish va avtomatlashtirilgan tizimlar samaradorligini yanada oshiradi.
Shu sababli, ushbu texnologiyalarni o‘zlashtirish va ulardan samarali foydalanish muhim
ahamiyat kasb etadi.
160
YANGI O'ZBEKISTON ILMIY
TADQIQOTLAR JURNALI
www.in-academy.uz
1-JILD, 13-SON (YOʻITJ)
FOYDALANILGAN ADABIYOTLAR
1. "Pattern Recognition and Machine Learning" – Christopher M. Bishop
2. "Data Mining: Concepts and Techniques" – Jiawei Han, Micheline Kamber, Jian Pei
3. "Introduction to Data Mining" – Pang-Ning Tan, Michael Steinbach, Vipin Kumar
4. "Machine Learning for Absolute Beginners" – Oliver Theobald
5. "A Survey of Clustering Techniques" – Anil K. Jain, M. N. Murty, P. J. Flynn (1999)
6. "Efficient and Effective Clustering Methods for Spatial Data Mining" – Ester, Kriegel, Sander,
Xu
7. Google Scholar (https://scholar.google.com):
8. M.Mamatov, A.Rahimov. “Sun’iy intellekt asoslari”
9. "Алгоритмы кластеризации и их применение" – учебник (русча).