63
МАШИНАЛИ ЎҚИТИШДА ТАСНИФЛАШ МАСАЛАСИ ВА УНИНГ
АЛГОРИТМЛАРИ ТАҲЛИЛИ
Р.Ж. Беглербеков
Қорақалпоғистон қишлоқ хўжалиги ва агротехнологиялар институти техника фанлар
бўйича фалсафа доктори
Ш.Қ. Абдикаримов
Қорақалпоғистон қишлоқ хўжалиги ва агротехнологиялар институти ассистенти.
https://doi.org/10.5281/zenodo.10826141
Аннотация.
Мақолада МИТ (Маълумотларни интеллектуал таҳлили) га тегишли
бўлган асосий тушунчалар яъни машина ўқитишда таснифлаш масаласи, таснифлаш
алгоритмларининг қўлланиш соҳалари, шунингдек, масалани амалиётга татбиқ қилиш
борасида маълумот келтирилган.
Калит сўзлар:
тимсоллар, таснифлаш, машинали ўқитиш, чуқур ўқитиш.
PROBLEM OF CLASSIFICATION IN MACHINE LEARNING AND ANALYSIS OF ITS
ALGORITHMS
Abstract.
The article provides information on the main concepts related to MIT (intelligent
data analysis), i.e., the issue of classification in machine learning, the areas of application of
classification algorithms, as well as the application of the problem in practice.
Key words:
symbols, classification, machine learning, deep learning.
ПРОБЛЕМА КЛАССИФИКАЦИИ В МАШИННОМ ОБУЧЕНИИ И АНАЛИЗ ЕГО
АЛГОРИТМОВ
Аннотация.
В статье представлена информация об основных понятиях, связанных
с MIT (интеллектуальным анализом данных), то есть классификации в машинном
обучении, областях применения алгоритмов классификации, а также применении
проблемы на практике.
Ключевые слова:
символы, классификация, машинное обучение, глубокое обучение.
Ҳозирги кунда ахборот ҳажмининг ошиши, яъни турли маълумотларнинг
мажмуасидан (DataSet, BigData) қарорлар қабул қилиш ёки фойдали ҳисоботларни қабул
қилишда маълумотларнинг интеллектуал таҳлили ёки Data Mining фан соҳаси пайдо бўлди.
Data Mining таркибига сунъий интеллект (Artificial Intelligence – AI), машинали
ўқитиш (ML – Machine Learning), тимсолларни таниш, маълумотлар базаси назарияси,
статистика, алгоритмлаштириш ва компьютер кўриш каби бўлимлардан иборат. Сунъий
64
интеллект муайян вазифаларни бажаришда инсон хатти-ҳаракатига тақлид қилишга қодир
бўлган тизим ёки технология бўлиб, олинган маълумотлардан фойдаланиб аста-секин
мукаммаллашиб боради. Сунъий интеллект формат ҳам, функция ҳам эмас, балки бу жараён
бўлиб, маълумотларни йиғиш, таҳлил қилиш кабиларни ўз ичига олади.
Машинали ўқитиш асосан таснифлаш, класстерлаш ва нейрон тармоқлари
масалаларини қамраб олади. Бизга шундай параметр кўрсаткичлари турлича бўлган
объектлар тўплами берилган ва бу объектлар бирор хусусиятлари бўйича чекли синфларга
ажратилган бўлсин. Бу чекли объектлар тўплами ўқув танлама деб аталади. Қолган ёки янги
аниқланган объектларнинг мавжуд синфларга тегишлилиги номаълум бўлсин. Демак,
дастлабки берилган танланмадан ихтиёрий объектни таснифлаш имкониятига эга
алгоритмни қуриш талаб қилинади. Бу ерда объектни таснифлаш деганда берилган объектга
тегишли бўлган синф рақамини (ёки номи) кўрсатиш тушунилади.
Агар машинали ўқитиш масаласини ҳал қилиш ўқитувчи ёрдамида амалга оширилса,
яъни янги объектнинг мавжуд синфларга тегишли эканлигини аниқлаш бу таснифлаш
масаласи дейилади. Шунингдек машинали ўқитишда ўқитувчисиз ўқитиш ҳам мумкин.
Мазкур ҳолда ўқув танланма объектларнинг синфларга бўлиниши белгиланмаган ва
объектларни фақат бир-бирига ўхшашлиги асосида таснифлаш талаб этилади. Бундай ҳолда
таснифлаш кластерлаш масаласи деб аталади.
Берилган объектлар маълум бир хусусиятлар бўйича тавсифланиб, ушбу
белгиланган хусусиятлар тўпламининг қийматлари тузилган вектор объект белгилари
ҳисобланади.
𝑋
объектлар тўплами (вазиятлар, прецедентлар) бўлсин. Объект - бу предмет
соҳасининг ўзига хос хусусиятлари билан белгиланади. Масалан, тиббий диагностика
масалаларида объектлар беморлар ҳисобланади.
Белги - объектнинг баъзи хусусиятларини ўлчаш натижаси ҳисобланади. Белгилар
𝑓: 𝑋 → 𝐷
𝑓
кўринишда берилган бўлсин. Бу эрда
𝐷
𝑓
қийматлар тўплами. Ушбу тўплам
характерига нисбатан белгилар қуйидаги турларга бўлинади: бинар:
𝐷
𝑓
= {0,1}
; номинал:
𝐷
𝑓
– чекли тўплам; тартибланган:
𝐷
𝑓
– чекли тартибли тўплам; миқдорий:
𝐷
𝑓
= ℝ
.
Белгилар тўплами
𝑓
1
, 𝑓
2
, 𝑓
3
, … , 𝑓
𝑛
. Берилган
𝑥 = (𝑓
1
(𝑥), 𝑓
2
(𝑥), … , 𝑓
𝑛
(𝑥))
вектор
объектнинг белгилари (
𝑥 ∈ 𝑋
). Машинани ўқитишда объект ва унинг белгилар орасида ҳеч
қандай фарқ йўқ. Шу сабабли
𝑋 =
𝐷
𝑓
1
, 𝐷
𝑓
2
, … , 𝐷
𝑓
𝑛
бўлади.
65
Ўқув танланмадаги барча объектларнинг белгилар тўплами
𝑋
ℓ
= (𝑥
1
, … , 𝑥
ℓ
)
кўринишида ифодаланади.
ℓ × 𝑛
жадвал шаклида ёзилган белги объект Матрицааси ёки
киритилган маълумотлар Матрицааси дейилади:
𝐹 = (𝑓
𝑗
(𝑥
𝑖
))
ℓ×𝑛
= (
𝑓
1
(𝑥
1
), … , 𝑓
𝑛
(𝑥
1
)
𝑓
1
(𝑥
ℓ
), … , 𝑓
𝑛
(𝑥
ℓ
)
).
Матрицаанинг қаторлари – бу объектнинг ўқув танланмалари. Матрицанинг
устунлари эса объект белгиларини ифодалайди.
ML-моделини яратиш жараёни
.
Машинали ўқитишда таснифлаш масалалари маълум бир маълумотлар тўпламини
икки ёки ундан ортиқ гуруҳларга ажратиш вазифаларни ўз ичига олади. Масалан, инсонда
касаллик борлиги («Ҳа» ёки «Йўқ») ҳақидаги савол, буюмни ҳозир онлайн порталдан сотиб
олиш ёки максимал чегирмага эга бўлиш учун бир неча ой кутиш, машина сотиб олишни
режалаштиришда бюджетни ҳисобга олиш вариантларидан қайси бири энг яхшиси
эканлигини аниқлаш каби масалаларни таснифлаш масаласи деб аташ мумкин.
Таснифлаш масалалари икки турга бўлинади: бинар ва мултиномиал. Бинар тасниф
маълумотларни иккита синфга ажратади, масалан, Ҳа/Йўқ, Яхши/Ёмон, Юқори/Паст,
муайян касал/соғлом ва ҳоказо. Мултиномиал тасниф: маълумотларни уч ёки ундан ортиқ
синфларга таснифлайди (ҳужжат таснифи, маҳсулот тоифалари, зарарли дастурлар).
Юқорида айтиб ўтилган ҳар иккала турдаги масалаларда маълумотларни таснифлаш
нуқтаи назаридан қуйидаги ёндашувлардан бири қўлланилади:
Маълумотлар тоифалар ёки синфларда топшириқлар сифатида таснифланади.
Маълумотлар юмшоқ топшириқ кўринишида таснифланади, масалан, ҳар бир
тоифа ёки синф маълумотларга тегишли бўлиш эҳтимоли.
Ma’lumot-
larni olish
Belgilarni
yaratish
Modellarni
yaratish
Natijani
o‘lshash
Haqiqiy
jarayonda
tekshirib
ko‘rish
Natija
qoniqaрli
yo‘q
ha
66
Синфлаштириш масаласи – бу назоратдаги таснифлаш масаласи бўлиб, бунда ўқув
объектларининг белгилари сонли ёки номинал бўлиши мумкин.
Таснифлаш моделлари қуйидаги алгоритмлар орқали ўқитилади.
Мантиқий регрессия
Қарорлар дарахти
Random forest (Тасодифий ўрмон)
XGBoost
Light GBM (Машина градиентини ошириш)
Овоз бериш (Voting classifiers)
Сунъий нейрон тармоқлари.
Танланмали ўқитишга асосланган таснифлаш масаласи учун моделни ўқитишда
чиқувчи ўзгарувчини белгилаш учун стратегиялар қўлланилади.
Бутун сон билан белгилаш (мс: {1, 2, 3}={ит, мушук, от});
Вектор кўринишида белгилаш (мс: ит синфи учун вектор (1, 0, 0), мушук синфи
учун (0, 1, 0), от синфи учун (0, 0, 1) бўлади. Демак, чиқиш белгилари {(1, 0, 0), (0, 1, 0), (0,
0, 1)} сифатида ифодаланади).
Мижозларнинг хатти-ҳаракатларини башорат қилиш (мс: харидорларни
анъанавий ёки онлайн харид қилиш одатлари ва бошқа омилларга кўра гуруҳларга бўлиш);
Спамни филтрлаш (мс: алгоритм электрон почтада хабарларнинг спам ва спам
эмаслигини спам хусусиятларни ўрганиш орқали ажратади);
Расмларни таснифлаш (мс: Мултиномиал таснифлашда рақамли тасвирда қандай
объект эканлиги. CNN
1
алгоритми билан аниқланади);
Ҳужжатларни таснифлаш (мс: мултиномиал таснифлаш модели ёрдамида
ҳужжатлар тўпламини белгилари орқали синфлаштирилади.
Алгоритмлари Naive Bayes, SVM, Нейрон тармоқлар, DBMs , DBNs va SAEs)
Veb-сахифаларни таснифлаш: (мс: матнли ҳужжатни тегишли мавзу тоифасига
солиштириш орқали амалга оширилади, сўнг веб-саҳифаларни автоматик белгилаш каби
таснифланади);
1
Convolutional Neural Networks - Конволюцион нейрон тармоқлари
67
Реклама тезлигини башоратлаш (мс: бинар таснифлаш моделлари веб-сайтдаги
бир ёки бир нечта рекламалар тарқалиши ёки тарқалмаслигини башоратлашда
ишлатилади);
Маҳсулот тоифалари (мс: мултномиал таснифлаш модели турли чакана
сотувчилар томонидан маҳсулотни тоифаларга ажратилишидан қатъи назар, у бир хил
тоифадаги турли чакана сотувчилар томонидан таклиф қилинадиган маҳсулотларни
таснифлаш);
Зарарли дастурий таъминот таснифи: (мс: мултномиал таснифлаш зарарли
дастурларнинг ўхшаш хусусиятлари аниқланади. Таснифлаш алгоритмлари Nayve Bayes, k-
NN ва дарахтга асосланган);
Тасвир ҳиссиётини таҳлил қилиш: (мс: бинар таснифлаш моделлари тасвир
ижобий ёки салбий ҳис-туйғуларни ўз ичига олиши ёки йўқлигини таснифлайди);
Харидорлар ва уларга чегирмалар бўлган ҳолда ҳаракатларини баҳолаш;
Аномалияларни аниқлаш муаммолари (мс: фирибгарликни аниқлаш.
Алгоритмлари Nayve Bayes, k-NN ва бошқалар);
Кредит карта фирибгарлигини аниқлаш;
Кредитда лаёқатлиликни баҳолаш
Блокланган буюртмани чиқариш;
Хулоса қилиб айтадиган бўлсак, машинани ўқитишни таснифлаш алгоритмлари жуда
кучли восита бўлиб, у саноат бўйлаб кенг қўлланилиши ва кредит карталаридаги
фирибгарликни аниқлаш ёки ҳужжатларни таснифлаш каби ҳолатлардан машинани ўқитиш
таснифлаш моделларида қўлланилади. Ўзаро сотиш учун мижозлар хатти-ҳаракатларини
таснифлашга ёрдам беради.
REFERENCES
1.
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа
данных: Дата Мининг, Висуал Мининг, Техт Мининг, ОЛАП//Санкт-Петербург: БХВ-
Петербург, 2007 г. -384 с.
2.
Дюк В.А., Самойленко А.П. Дата Мининг: учебный курс. -СПб.: 2001 г. -с. 368 (18).
3.
Замятин А.В. Интеллектуальный анализ данных//Томск: Изд.дом ТомГУ, 2016 г.
68
4.
Фазылов Ш.Х., Мирзаев Н.М., Мирзаев О.Н. Построение распознающих операторов в
условиях взаимосвязанности признаков // Радиоэлектроника, информатика,
управление. – Запорожье, 2016. – № 1. С. 58-63.
5.
Акбаралиев Б.Б. Информатив белгилар мезонига мос ҳал қилувчи қоидани қуриш
//“Информатика ва энергетика муаммолари” Ўзбекистон журнали, Тошкент, 2005 йил,
1-сон, 10-15 б.
6.
Вьюгин В.В. Математические основы теории машинного обучения и
прогнозирования//М.: МЦНМО, 2013 г. — 390 с.