`
143
MASHINAVIY O‘QITISHDA XUSUSIYATLAR TANLOVI VA O‘ZGARTIRISHNING
AHAMIYATI
Asqarov Elbek
Qo‘qon universiteti o‘qituvchisi
Email:e.e.askarov.kokanduni.uz
https://doi.org/10.5281/zenodo.15751934
Annotatsiya
Mashinaviy o‘qitish (machine learning) loyihalarida ma'lumotlarni tayyorlash bosqichi
muvaffaqiyatning asosiy omillaridan biridir. Ushbu bosqichda xususiyatlar tanlovi (feature
selection) va xususiyatlar o‘zgartirish (feature engineering) modelning samaradorligi, aniqligi
va umumlashtirish qobiliyatiga katta ta'sir ko‘rsatadi. Ushbu maqolada ushbu jarayonlarning
ahamiyati, afzalliklari va amaliy misollar keltiriladi.
Kalit so‘zlar:
xususiyatlar tanlovi, xususiyatlar o‘zgartirish, mashinaviy o‘qitish,
ma'lumotlar tayyorlash, feature selection, feature engineering, model aniqligi, haddan
tashqari moslashuv, normallashtirish, kategorik kodlash, ma'lumotlar sifati, umumlashtirish,
hisoblash xarajatlari, interpretatsiya, yangi xususiyatlar yaratish
Xususiyatlar tanlovi — bu ma'lumotlar to‘plamidagi eng muhim va foydali xususiyatlarni
aniqlash va keraksiz yoki past ahamiyatli xususiyatlarni olib tashlash jarayonidir. Bu jarayon
quyidagi afzalliklarni ta'minlaydi. Ko‘p xususiyatlarga ega ma'lumotlar to‘plamlari hisoblash
xarajatlarini oshiradi va o‘qitish jarayonini sekinlashtiradi. Keraksiz xususiyatlarni olib
tashlash orqali ma'lumotlar hajmi qisqaradi, bu esa resurslardan samarali foydalanish
imkonini beradi.
Faqat muhim xususiyatlardan foydalanish modelning shovqinli (noise) yoki noto‘g‘ri
ma'lumotlarga chalg‘ishini oldini oladi. Bu modelning yangi, ko‘rilmagan ma'lumotlarda
yaxshi ishlashiga (umumlashtirish) yordam beradi. Keraksiz xususiyatlar modelning o‘quv
ma'lumotlariga haddan tashqari moslashishiga olib kelishi mumkin. Tanlov jarayoni ushbu
xavfni kamaytiradi va modelning barqarorligini oshiradi.
Kamroq, lekin muhim xususiyatlar
bilan ishlaganda modelni tushunish va tahlil qilish osonlashadi. Bu, ayniqsa, tibbiyot yoki
moliya kabi sohalarda muhimdir, chunki natijalarni tushuntirish zarur bo‘ladi.Tibbiy tashxis
qo‘yish uchun model yaratilayotganda bemorning qon bosimi, yurak urishi va xolesterin
darajasi kabi muhim ko‘rsatkichlar tanlanadi, lekin bemor ismi yoki telefon raqami kabi
ahamiyatsiz ma'lumotlar chiqarib tashlanadi.
Filtrlash usullari (Filter methods): Xususiyatlarning statistik xususiyatlari (masalan,
korrelyatsiya yoki x2-test) asosida tanlanadi.
O‘rash usullari (Wrapper methods): Modelning ishlashiga qarab xususiyatlar sinovdan
o‘tkaziladi (masalan, Recursive Feature Elimination).
Ichki usullar (Embedded methods): Model o‘qitish jarayonida xususiyatlarning
ahamiyati aniqlanadi (masalan, LASSO yoki daraxt asosli algoritmlar).
Xususiyatlar o‘zgartirish — bu xom ma'lumotlarni mashinaviy o‘qitish algoritmlari
uchun mos shaklga keltirish yoki yangi, foydali xususiyatlar yaratish jarayonidir. Bu jarayon
quyidagi afzalliklarni beradi:
`
144
Xom ma'lumotlar ko‘pincha algoritmlar uchun to‘g‘ridan-to‘g‘ri ishlatishga yaroqsiz
bo‘ladi. Masalan, turli o‘lchov birliklaridagi xususiyatlarni normallashtirish yoki logarifmlash
orqali ularni bir xil shkalaga keltirish mumkin.
Yangi xususiyatlar yaratish orqali ma'lumotlar orasidagi muhim bog‘liqliklar aniqlanadi.
Masalan, ikkita xususiyatning nisbati yoki kombinatsiyasi model uchun muhim bo‘lishi
mumkin. Ba'zi algoritmlar, masalan, k-eng yaqin qo‘shnilar (k-NN) yoki gradient boosting,
xususiyatlarning bir xil o‘lchovda bo‘lishini talab qiladi. Normallashtirish yoki
standartlashtirish buni ta'minlaydi. Kategorik ma'lumotlar (masalan, "shahar" yoki "jins")
raqamli shaklga o‘tkaziladi. Buning uchun one-hot encoding yoki label encoding kabi usullar
qo‘llaniladi. Uy narxini bashorat qilish modelida xom xususiyatlar (uy maydoni, xonalar soni)
asosida yangi xususiyat yaratish mumkin, masalan, "bir xonaga to‘g‘ri keladigan maydon"
nisbati. Bu modelga qo‘shimcha ma'lumot beradi.
Normallashtirish va standartlashtirish: Xususiyatlarni [0, 1] oralig‘iga yoki o‘rtacha 0 va
dispersiya 1 ga keltirish.
Kategorik kodlash: Kategorik ma'lumotlarni raqamli shaklga o‘tkazish.
Yangi xususiyatlar yaratish: Mavjud xususiyatlardan matematik amallar yordamida
yangi xususiyatlar hosil qilish.
O‘lchovni o‘zgartirish: Logarifmlash yoki kvadrat ildiz olish kabi usullar bilan
ma'lumotlar taqsimotini yaxshilash.
Kredit berish xavfini bashorat qilish modelini ko‘rib chiqaylik. Xom ma'lumotlar
to‘plamida quyidagi xususiyatlar mavjud: mijozning yoshi, daromadi, kredit tarixi, ish joyi,
oilaviy holati va boshqalar.
Xususiyatlar tanlovi: Mijozning ismi yoki telefon raqami kabi kredit qobiliyatiga ta'sir
qilmaydigan xususiyatlar olib tashlanadi. Faqat daromad, kredit tarixi va qarz-yuklama nisbati
kabi muhim xususiyatlar qoldiriladi.
Xususiyatlar o‘zgartirish: Daromad va qarz miqdori normallashtiriladi, oilaviy holat one-
hot encoding orqali raqamli shaklga o‘tkaziladi, shuningdek, "qarz-daromad nisbati" kabi
yangi xususiyat yaratiladi.
Natijada, model nafaqat tezroq o‘qitiladi, balki mijozlarning kredit xavfini aniqroq
bashorat qiladi.
Xususiyatlar tanlovi va o‘zgartirish mashinaviy o‘qitish loyihalarida muhim rol o‘ynaydi.
Ular modelning samaradorligini oshiradi, hisoblash xarajatlarini kamaytiradi va natijalarni
tushunarli qiladi. To‘g‘ri amalga oshirilganda, bu jarayonlar ma'lumotlardan maksimal foyda
olishga yordam beradi va modelning amaliy dasturlarda muvaffaqiyatli ishlashini ta'minlaydi.
Shu sababli, har qanday mashinaviy o‘qitish loyihasida ushbu bosqichlarga alohida e'tibor
berish zarur.
References:
Используемая литература:
Foydalanilgan adabiyotlar:
1.
Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection.
Journal
of Machine Learning Research, 3
, 1157-1182.
`
145
2.
Hastie, T., Tibshirani, R., & Friedman, J. (2009).
The Elements of Statistical Learning: Data
Mining, Inference, and Prediction (2nd ed.).
Springer.
3.
Kuhn, M., & Johnson, K. (2013).
Applied Predictive Modeling.
Springer.
4.
Zheng, A., & Casari, A. (2018).
Feature Engineering for Machine Learning: Principles and
Techniques for Data Scientists.
O’Reilly Media.
5.
Brownlee, J. (2020).
Data Preparation for Machine Learning: Data Cleaning, Feature
Selection, and Data Transforms in Python.
Machine Learning Mastery.
6.
Liu, H., & Motoda, H. (2007).
Computational Methods of Feature Selection.
Chapman and
Hall/CRC.
7.
Goodfellow, I., Bengio, Y., & Courville, A. (2016).
Deep Learning.
MIT Press.
8.
Onlayn resurs: Scikit-learn Documentation.
Feature Selection
(https://scikit-
learn.org/stable/modules/feature_selection.html).
9.
Onlayn
resurs:
Kaggle
Tutorials.
Feature
Engineering
(https://www.kaggle.com/learn/feature-engineering).
10.
Hall, M. A. (1999). Correlation-based Feature Selection for Machine Learning.
Doctoral
dissertation, University of Waikato.