Authors

DOI:

https://doi.org/10.71337/inlibrary.uz.yoitj.59078

Abstract

  Ushbu maqolada tasniflash va klasterlash usullari ma'lumotlarni tahlil qilishda qo‘llaniladigan muhim texnikalar sifatida ko‘rib chiqiladi. Tasniflash nazorat ostidagi o‘rgatish usuli bo‘lib, ma'lumotlarni oldindan belgilangan kategoriyalarga ajratishni o‘z ichiga oladi. Bu jarayonda o‘rgatish namunalar asosida model yaratiladi va yangi ma'lumotlar tegishli sinflarga taqsimlanadi. Klasterlash esa nazorat ostida bo‘lmagan o‘rgatish usuli bo‘lib, ma'lumotlarni yashirin o‘xshashliklar yoki tuzilmalarga asoslangan holda guruhlash imkonini beradi. Ushbu usul K-means, hierarchik klasterlash va DBSCAN kabi algoritmlar yordamida amalga oshiriladi. Maqolada tasniflash va klasterlashning marketing, tibbiyot, texnologik nosozliklarni aniqlash kabi sohalardagi qo‘llanilishi ko‘rib chiqilib, ushbu texnologiyalarning samaradorlik va ilmiy-texnik rivojlanishga qo‘shayotgan hissasi yoritilgan. Ma'lumotlarni tahlil qilishdagi bu usullar bilimlarni aniqlash va qaror qabul qilish jarayonini yanada takomillashtiradi.


background image

156

YANGI O'ZBEKISTON ILMIY

TADQIQOTLAR JURNALI

www.in-academy.uz

1-JILD, 13-SON (YOʻITJ)

TASNIFLASH VA KLASTERLASH

Tojimamatov Isroil Nurmamatovich

Farg’ona davlat unversiteti o‘qituvchi

isik80@mail.

ru

Abduhakimova Xusnora Abdusamad qizi

Farg’ona davlat unversiteti talabasi

abdujabborparpiyev6@gmail.com

https://doi.org/10.5281/zenodo.14259949

ARTICLE INFO

ABSTRACT

Qabul qilindi: 9-noyabr 2024 yil

Ma’qullandi: 19-noyabr 2024 yil

Nashr qilindi: 30-noyabr 2024 yil

Ushbu maqolada tasniflash va klasterlash usullari

ma'lumotlarni tahlil qilishda qo‘llaniladigan muhim

texnikalar sifatida ko‘rib chiqiladi. Tasniflash

nazorat

ostidagi

o‘rgatish

usuli

bo‘lib,

ma'lumotlarni

oldindan

belgilangan

kategoriyalarga ajratishni o‘z ichiga oladi. Bu

jarayonda o‘rgatish namunalar asosida model

yaratiladi va yangi ma'lumotlar tegishli sinflarga

taqsimlanadi. Klasterlash esa nazorat ostida

bo‘lmagan o‘rgatish usuli bo‘lib, ma'lumotlarni

yashirin

o‘xshashliklar

yoki

tuzilmalarga

asoslangan holda guruhlash imkonini beradi. Ushbu

usul K-means, hierarchik klasterlash va DBSCAN

kabi algoritmlar yordamida amalga oshiriladi.

Maqolada tasniflash va klasterlashning marketing,

tibbiyot, texnologik nosozliklarni aniqlash kabi

sohalardagi qo‘llanilishi ko‘rib chiqilib, ushbu

texnologiyalarning samaradorlik va ilmiy-texnik

rivojlanishga qo‘shayotgan hissasi yoritilgan.

Ma'lumotlarni tahlil qilishdagi bu usullar bilimlarni

aniqlash va qaror qabul qilish jarayonini yanada

takomillashtiradi.

KEY WORDS

Tasniflash,

klasterlash,

ma'lumotlarni

tahlil

qilish,

nazorat ostida o‘rgatish, nazorat
ostida

bo‘lmagan

o‘rgatish,

kategoriyalar,

K-means,

Hierarchik klasterlash, DBSCAN,
marketing, tibbiyot, biometrik
tahlil, texnik nosozliklar, qaror
qabul

qilish,

ma'lumotlar

guruhlanishi, o’xshashliklar tahlili,
ilmiy

izlanish,

texnologik

rivojlanish.

Klasterlash usuli - bu bir guruhdagi ob'ektlar to'plamini boshqa tarmoqlardagi ob'ektlarga

qaraganda bir-biriga o'xshash tarzda guruhlash vazifasi. Bu maʼlumotlarni qidirishning asosiy

vazifasi va koʻplab sohalarda qoʻllaniladigan umumiy statistik tahlil texnikasi, jumladan,

mashinani oʻrganish, naqshni aniqlash, tasvirni aniqlash, axborotni qidirish, maʼlumotlarni

siqish va kompyuter grafikasi.

Klasterlash usulining oʻzi bitta aniq algoritm emas, balki hal qilinishi kerak boʻlgan umumiy

vazifadir. Bunga guruh nimadan iboratligini va uni qanday samarali topishni tushunishda

sezilarli darajada farq qiluvchi turli xil algoritmlar yordamida erishish mumkin.

Metamavzularni shakllantirish uchun klasterlash usulidan foydalanish guruhdan

foydalanishni o'z ichiga oladia'zolar orasidagi kichik masofalar, bo'shliqning zich hududlari,

intervallar yoki ma'lum statistik taqsimotlar. Shuning uchun klasterlash ko‘p maqsadli

optimallashtirish muammosi sifatida shakllantirilishi mumkin.

Tegishli usul va parametr sozlamalari (jumladan, foydalaniladigan masofa funksiyasi, zichlik

chegarasi yoki kutilayotgan klasterlar soni kabi elementlar) individual maʼlumotlar toʻplamiga

va natijalardan maqsadli foydalanishga bogʻliq. Tahlil avtomatik vazifa emas, balki bilimlarni


background image

157

YANGI O'ZBEKISTON ILMIY

TADQIQOTLAR JURNALI

www.in-academy.uz

1-JILD, 13-SON (YOʻITJ)

kashf qilish yoki interaktiv ko'p maqsadli optimallashtirishning iterativ jarayonidir. Ushbu

klasterlash usuli sinov va xato urinishlarini o'z ichiga oladi. Natija kerakli xususiyatlarga

erishilgunga qadar tez-tez ma'lumotlarni qayta ishlash va model parametrlarini o'zgartirish

kerak bo'ladi. “Klasterlash” atamasi bilan bir qatorda avtomatik tasnif, sonli taksonomiya,

botriologiya va tipologik tahlil kabi ma’nolari o’xshash bir qancha so’zlar ham mavjud. Nozik

farqlar ko'pincha metasub'ekt munosabatlarini shakllantirish uchun klasterlash usulidan

foydalanishda yotadi. Ma'lumot olishda natijada paydo bo'lgan guruhlar qiziqish uyg'otsa-da,

avtomatik tasniflashda bu funktsiyalarni bajaradigan diskriminatsion kuch allaqachon mavjud.

Klaster tahlili 1932-yilda Kroberning koʻplab ishlariga asoslangan edi. U 1938 yilda Zubin va

1939 yilda Robert Tryon tomonidan psixologiyaga kiritilgan. Va bu ishlardan Cattell 1943

yildan beri nazariy jihatdan klasterlash usullarining tasnifini ko'rsatish uchun ishlatib

kelinmoqda."Klaster" tushunchasiga aniq ta'rif berib bo'lmaydi. Bu juda ko'p klasterlash

usullari mavjudligining sabablaridan biridir. Umumiy maxraj mavjud: ma'lumotlar ob'ektlari

guruhi. Biroq, turli tadqiqotchilar turli modellardan foydalanadilar. Klasterlash usullaridan

foydalanishning har biri turli ma'lumotlarni o'z ichiga oladi. Turli xil algoritmlar tomonidan

topilgan tushuncha o'z xususiyatlarida sezilarli darajada farqlanadi.

Klasterlash usuli-ushbu ittifoq oʻz nomi bilan ham tanilgan, ierarxik model. U ob'ektlar

uzoqroqda joylashgan qismlarga qaraganda qo'shni qismlarga ko'proq bog'langan degan

odatiy fikrga asoslanadi. Bu algoritmlar ob'ektlarni bir-biriga bog'lab, ularning masofasiga

qarab turli klasterlarni hosil qiladi. Klasterlashning asosiy xususiyatlari:

1. Nazoratsiz o‘rganish: Ma'lumotlarda oldindan belgilar (label) mavjud emas.

2. Guruhlash: Ma'lumot bir-biriga o‘xshashlik yoki masofaga qarab guruhlanadi.

3. O‘xshashlik o‘lchovi: Klasterlashda ob'ektlar orasidagi o‘xshashlik masofa (masalan, Evklid

masofasi) orqali aniqlanadi.

Qanday ishlaydi?

1. Ma'lumotlar yig‘ish: Dastlab ma'lumot to‘plami tayyorlanadi.

2. Xususiyatlar aniqlash: Har bir ob'ektning xususiyatlari (features) tanlanadi.

3. Klasterlarni ajratish: Algoritm ma'lumotlarni o‘ziga xos guruhlarga ajratadi.

4. Guruhlarni baholash: Olingan klasterlar foydalanuvchi maqsadlariga muvofiqmi,

tekshiriladi.

Klasterlashning qo‘llanilishi:

Mijoz segmentatsiyasi: Xaridorlarni ularning xarid qilish xatti-harakatlariga qarab guruhlash.

Bozor tahlili: Bir xil xususiyatga ega mahsulotlarni bir guruhga ajratish.

Tibbiyot: Kasallikni simptomlariga qarab klasterlash.

Rasm va video tahlili: Bir xil ob'ektlar mavjud rasmlarni guruhlash.

Geografiya: Shaharlarni iqlim, aholi yoki hudud xususiyatlariga qarab bo‘lish.

Mashhur klasterlash algoritmlari:

1. K-means: Klasterlar markazini aniqlab, ma'lumotlarni unga yaqinlik bo‘yicha ajratadi.

2. Ierarxik klasterlash (Hierarchical Clustering): Daraxt shaklidagi klasterlar tuzadi.

3. DBSCAN (Density-Based Spatial Clustering): Yig‘ilgan (kuchli zichlikdagi) klasterlarni

aniqlaydi.

4. Gaussian Mixture Models: Ma'lumotlarni statistik ehtimollik asosida bo‘ladi.

Guruhni asosan klasterning turli qismlarini ulash uchun zarur bo'lgan maksimal masofa bilan

tavsiflash mumkin. Barcha mumkin bo'lgan masofalarda dendrogramma yordamida

ifodalanishi mumkin bo'lgan boshqa guruhlar hosil bo'ladi. Bu "ierarxik klasterlash" umumiy

nomi qayerdan kelganligini tushuntiradi. Ya'ni, bu algoritmlar ma'lumotlar to'plamining

yagona bo'limini ta'minlamaydi, aksincha, vakolatning keng tartibini ta'minlaydi. Unga rahmat,

ma'lum masofalarda bir-biri bilan drenaj mavjud. Dendrogrammada y o'qi klasterlarning

birikish masofasini bildiradi. Guruhlar aralashmasligi uchun ob'ektlar X chizig'i bo'ylab

joylashtirilgan.


background image

158

YANGI O'ZBEKISTON ILMIY

TADQIQOTLAR JURNALI

www.in-academy.uz

1-JILD, 13-SON (YOʻITJ)

Ulanishga asoslangan klasterlash - bu masofalarni hisoblashda farq qiluvchi usullarning butun

oilasi. Masofa funktsiyalarining odatiy tanlovidan tashqari, foydalanuvchi ulanish mezonini

ham hal qilishi kerak. Klaster bir nechta ob'ektlardan iborat bo'lganligi sababli, uni

hisoblashning ko'plab variantlari mavjud. Ommabop tanlov bitta tutqichli guruhlash deb

nomlanadi, bu usulUPGMA yoki WPGMA ni o'z ichiga olgan to'liq havola (o'rtacha arifmetik

bo'lgan, shuningdek, o'rtacha havola klasteri sifatida ham tanilgan, vaznsiz yoki vaznli juftlik

ansambli). Bundan tashqari, ierarxik tizim aglomerativ (alohida elementlardan boshlab va

ularni guruhlarga birlashtirish) yoki bo‘linuvchi (to‘liq ma’lumotlar to‘plamidan boshlab va

uni bo‘limlarga bo‘lish) bo‘lishi mumkin.

Taqsimlangan klasterlash

Bu modellar boʻlinishlarga asoslangan statistik maʼlumotlar bilan chambarchas bogʻliq.

Klasterlarni bir xil taqsimotga tegishli bo'lgan ob'ektlar sifatida osongina aniqlash mumkin.

Ushbu yondashuvning qulay xususiyati shundaki, u sun'iy ma'lumotlar to'plamini yaratish

usuliga juda o'xshaydi. Taqsimotdan tasodifiy ob'ektlarni tanlash orqali.

Ushbu usullarning nazariy asoslari mukammal boʻlsa-da, modelning murakkabligiga

cheklovlar qoʻyilmasa, ular haddan tashqari moslashish deb nomlanuvchi asosiy muammodan

aziyat chekadi. Kattaroq assotsiatsiya odatda maʼlumotlarni yaxshiroq tushuntiradi, bu esa

toʻgʻri usulni tanlashni qiyinlashtiradi.

Zichlikka asoslangan klasterlash

Ushbu misolda guruhlar asosan maʼlumotlar toʻplamining qolgan qismiga qaraganda yuqori

oʻtkazuvchanlikka ega boʻlgan hududlar sifatida belgilangan. Barcha komponentlarni ajratish

uchun zarur boʻlgan ushbu noyob qismlardagi obyektlar odatda shovqin va chekka nuqtalar

hisoblanadi.

Eng mashhur zichlikka asoslangan klasterlash usuli DBSCAN (Spatial Noise Clustering

Algoritm) hisoblanadi. Ko'pgina yangi usullardan farqli o'laroq, u "zichlikka erishish

imkoniyati" deb nomlangan aniq belgilangan klaster komponentiga ega. Bog'lanishga

asoslangan klasterlash kabi, u ma'lum masofa chegaralaridagi ulanish nuqtalariga asoslanadi.

Biroq, bu usul faqat zichlik mezoniga javob beradigan narsalarni to'playdi. Ushbu radiusdagi

boshqa ob'ektlarning minimal soni sifatida belgilangan asl versiyada klaster barcha

elementlardan iborat.zichlikka oid elementlar (boshqa usullardan farqli ravishda erkin

shakldagi guruhni tashkil qilishi mumkin) va ruxsat etilgan diapazondagi barcha ob'ektlar.

DBSCAN

-ning yana bir qiziqarli xususiyati shundaki, uning murakkabligi ancha past - bu

ma'lumotlar bazasiga nisbatan chiziqli qator so'rovlarni talab qiladi. Va g'ayrioddiy narsa

shundaki, u har bir ishda deyarli bir xil natijalarni topadi (bu asosiy va shovqin nuqtalari

uchun deterministik, lekin chegara elementlari uchun emas). Shuning uchun uni bir necha

marta ishga tushirishning hojati yo'q.

DBSCAN va OPTICS ning asosiy kamchiligi shundaki, ular klaster chegaralarini aniqlash uchun

zichlikning biroz pasayishini kutishadi. Masalan, Gauss taqsimotlari bir-biriga o'xshash

bo'lgan ma'lumotlar to'plamlarida - sun'iy ob'ektlar uchun umumiy foydalanish holati - bu

algoritmlar tomonidan yaratilgan klaster chegaralari ko'pincha o'zboshimchalik bilan

ko'rinadi. Bu guruhlarning zichligi doimiy ravishda kamayib borayotganligi sababli sodir

bo'ladi. Va Gauss aralashmasi ma'lumotlar to'plamida bu algoritmlar deyarli har doim bunday

tizimlarni aniq modellashtirishga qodir bo'lgan EM klasterlash kabi usullardan ustun turadi.

Oʻrtacha siljish - bu klasterlash usuli boʻlib, unda har bir obʼyekt butun yadroni baholash

asosida yaqin atrofdagi eng zich hududga oʻtadi. Oxir-oqibat, ob'ektlar mahalliy o'tkazmaslik

maksimallariga yaqinlashadi. K-vositalari klasterlashiga o'xshab, bu "zichlik jalb qiluvchilar"

ma'lumotlar to'plamining vakili bo'lib xizmat qilishi mumkin. Ammo o'rtacha siljishDBSCAN

ga o'xshash o'zboshimchalik bilan shakllangan klasterlarni aniqlay oladi. Qimmatbaho iterativ

protsedura va zichlikni baholash tufayli o'rtacha siljish odatda DBSCAN yoki k-Means ga

qaraganda sekinroq bo'ladi. Bundan tashqari, odatdagi siljish algoritmini yuqori o'lchamli


background image

159

YANGI O'ZBEKISTON ILMIY

TADQIQOTLAR JURNALI

www.in-academy.uz

1-JILD, 13-SON (YOʻITJ)

ma'lumotlarga qo'llash yadro zichligi taxminining bir xil bo'lmagan harakati tufayli qiyin, bu

klaster dumlarining haddan tashqari parchalanishiga olib keladi.

Tasniflash (classification) – ma'lumotlarni oldindan belgilangan toifalarga ajratish

jarayonidir. Bu usul nazoratli o‘rganishga asoslangan bo‘lib, ma’lumotning har bir bo‘lagi

o‘ziga xos toifa (klass) bilan belgilanadi.

Tasniflashning asosiy xususiyatlari:

1. Supervayz o‘rganish: Modelni o‘rgatish uchun belgilangan ma'lumot (label) kerak bo‘ladi.

2. Toifalar: Oldindan aniqlangan kategoriyalar mavjud.

3. Masala turi: Model kiritilgan ma'lumotni qaysi kategoriya (klass)ga tegishli ekanini taxmin

qiladi.

Qanday ishlaydi?

1. Ma’lumotlarni tayyorlash: Ma’lumotlar to‘plami kirish xususiyatlari (features) va natija

toifasiga (label) bo‘linadi.

2. Modelni o‘rgatish: Belgilangan ma’lumotlar yordamida algoritm o‘qitiladi.

3. Test qilish: Model yangi ma'lumotni sinab ko‘rish orqali to‘g‘ri toifalashni o‘rganadi.

4. Foydalanish: Model yangi kelgan ma'lumotni avtomatik toifalash uchun ishlatiladi.

Tasniflashning qo‘llanilishi:

Elektron pochta xabarlarini spam va oddiy xabar deb ajratish.

Tibbiyotda kasalliklarni tashxislash.

Bankda kredit olish imkoniyatini baholash.

Rasmlarni qaysi ob'ektni tasvirlashiga qarab guruhlash.

Tasniflashning mashhur algoritmlari:

1. Logistik regressiya

2. K yaqin qo‘shnilar usuli (KNN)

3. Qaror daraxtlari (Decision Trees)

4. Random Forest

5. Neyron tarmoqlar (Neural Networks)

NATIJA:

Tasniflash va klasterlash ma'lumotlarni tahlil qilishda muhim rol o'ynaydi. Tasniflash

algoritmlari ma'lumotlarni belgilangan kategoriyalarga ajratish orqali masalalarni hal qilishga

yordam beradi, masalan, elektron pochta xabarlarini spam va oddiy guruhlarga ajratish.

Klasterlash esa, ma'lumotni tabiiy guruhlarga ajratib, yashirin xususiyatlarni aniqlash

imkonini beradi, masalan, mijozlarni xarid qilish xulq-atvoriga qarab segmentlarga bo'lish.

Mazkur usullarni qo‘llash orqali ma'lumotlar tahlilining samaradorligi oshadi, murakkab

muammolarni yechish imkoniyati paydo bo‘ladi va qaror qabul qilish jarayonlari

takomillashadi. Shuningdek, klasterlash va tasniflash algoritmlarining to‘g‘ri tanlanishi,

ma’lumotlarning sifati va hajmiga bog‘liq bo‘lib, bu esa natijaning aniqligini belgilaydi.

XULOSA:

Tasniflash va klasterlash texnikalari ma'lumotlar tahlilining nazoratli va nazoratsiz o‘rganish

usullariga asoslanib, bir-birini to‘ldiradi. Tasniflash o‘z aniq maqsadlariga erishish uchun

oldindan belgilangan toifalardan foydalansa, klasterlash yangi ma'lumotlar guruhlarini

aniqlash uchun ishlatiladi. Zamonaviy texnologiyalar bilan birga ushbu usullar tibbiyot, savdo,

marketing, muhandislik, ilmiy tadqiqot va boshqa sohalarda keng qo‘llanilmoqda. Tasniflash

va klasterlash algoritmlarini samarali qo‘llash orqali katta ma'lumotlardan (big data) yanada

ko‘proq foydali ma'lumotlar olish mumkin. Kelajakda ushbu usullarni rivojlantirish sun'iy

intellekt, mashinaviy o‘qitish va avtomatlashtirilgan tizimlar samaradorligini yanada oshiradi.

Shu sababli, ushbu texnologiyalarni o‘zlashtirish va ulardan samarali foydalanish muhim

ahamiyat kasb etadi.


background image

160

YANGI O'ZBEKISTON ILMIY

TADQIQOTLAR JURNALI

www.in-academy.uz

1-JILD, 13-SON (YOʻITJ)

FOYDALANILGAN ADABIYOTLAR

1. "Pattern Recognition and Machine Learning" – Christopher M. Bishop

2. "Data Mining: Concepts and Techniques" – Jiawei Han, Micheline Kamber, Jian Pei

3. "Introduction to Data Mining" – Pang-Ning Tan, Michael Steinbach, Vipin Kumar

4. "Machine Learning for Absolute Beginners" – Oliver Theobald

5. "A Survey of Clustering Techniques" – Anil K. Jain, M. N. Murty, P. J. Flynn (1999)

6. "Efficient and Effective Clustering Methods for Spatial Data Mining" – Ester, Kriegel, Sander,

Xu

7. Google Scholar (https://scholar.google.com):

8. M.Mamatov, A.Rahimov. “Sun’iy intellekt asoslari”

9. "Алгоритмы кластеризации и их применение" – учебник (русча).

References

"Pattern Recognition and Machine Learning" – Christopher M. Bishop

"Data Mining: Concepts and Techniques" – Jiawei Han, Micheline Kamber, Jian Pei

"Introduction to Data Mining" – Pang-Ning Tan, Michael Steinbach, Vipin Kumar

"Machine Learning for Absolute Beginners" – Oliver Theobald

"A Survey of Clustering Techniques" – Anil K. Jain, M. N. Murty, P. J. Flynn (1999)

"Efficient and Effective Clustering Methods for Spatial Data Mining" – Ester, Kriegel, Sander, Xu

M.Mamatov, A.Rahimov. “Sun’iy intellekt asoslari”

"Алгоритмы кластеризации и их применение" – учебник (русча).