Авторы

  • Elbek Asqarov
    Qo‘qon universiteti o‘qituvchisi

DOI:

https://doi.org/10.71337/inlibrary.uz.zdift.117231

Ключевые слова:

xususiyatlar tanlovi xususiyatlar o‘zgartirish mashinaviy o‘qitish ma'lumotlar tayyorlash feature selection feature engineering model aniqligi haddan tashqari moslashuv normallashtirish kategorik kodlash ma'lumotlar sifati umumlashtirish hisoblash xarajatlari interpretatsiya yangi xususiyatlar yaratish

Аннотация

Mashinaviy o‘qitish (machine learning) loyihalarida ma'lumotlarni tayyorlash bosqichi muvaffaqiyatning asosiy omillaridan biridir. Ushbu bosqichda xususiyatlar tanlovi (feature selection) va xususiyatlar o‘zgartirish (feature engineering) modelning samaradorligi, aniqligi va umumlashtirish qobiliyatiga katta ta'sir ko‘rsatadi. Ushbu maqolada ushbu jarayonlarning ahamiyati, afzalliklari va amaliy misollar keltiriladi.


background image

`

143

MASHINAVIY O‘QITISHDA XUSUSIYATLAR TANLOVI VA O‘ZGARTIRISHNING

AHAMIYATI

Asqarov Elbek

Qo‘qon universiteti o‘qituvchisi
Email:e.e.askarov.kokanduni.uz

https://doi.org/10.5281/zenodo.15751934

Annotatsiya

Mashinaviy o‘qitish (machine learning) loyihalarida ma'lumotlarni tayyorlash bosqichi

muvaffaqiyatning asosiy omillaridan biridir. Ushbu bosqichda xususiyatlar tanlovi (feature
selection) va xususiyatlar o‘zgartirish (feature engineering) modelning samaradorligi, aniqligi
va umumlashtirish qobiliyatiga katta ta'sir ko‘rsatadi. Ushbu maqolada ushbu jarayonlarning
ahamiyati, afzalliklari va amaliy misollar keltiriladi.

Kalit so‘zlar:

xususiyatlar tanlovi, xususiyatlar o‘zgartirish, mashinaviy o‘qitish,

ma'lumotlar tayyorlash, feature selection, feature engineering, model aniqligi, haddan
tashqari moslashuv, normallashtirish, kategorik kodlash, ma'lumotlar sifati, umumlashtirish,
hisoblash xarajatlari, interpretatsiya, yangi xususiyatlar yaratish

Xususiyatlar tanlovi — bu ma'lumotlar to‘plamidagi eng muhim va foydali xususiyatlarni

aniqlash va keraksiz yoki past ahamiyatli xususiyatlarni olib tashlash jarayonidir. Bu jarayon
quyidagi afzalliklarni ta'minlaydi. Ko‘p xususiyatlarga ega ma'lumotlar to‘plamlari hisoblash
xarajatlarini oshiradi va o‘qitish jarayonini sekinlashtiradi. Keraksiz xususiyatlarni olib
tashlash orqali ma'lumotlar hajmi qisqaradi, bu esa resurslardan samarali foydalanish
imkonini beradi.

Faqat muhim xususiyatlardan foydalanish modelning shovqinli (noise) yoki noto‘g‘ri

ma'lumotlarga chalg‘ishini oldini oladi. Bu modelning yangi, ko‘rilmagan ma'lumotlarda
yaxshi ishlashiga (umumlashtirish) yordam beradi. Keraksiz xususiyatlar modelning o‘quv
ma'lumotlariga haddan tashqari moslashishiga olib kelishi mumkin. Tanlov jarayoni ushbu
xavfni kamaytiradi va modelning barqarorligini oshiradi.

Kamroq, lekin muhim xususiyatlar

bilan ishlaganda modelni tushunish va tahlil qilish osonlashadi. Bu, ayniqsa, tibbiyot yoki
moliya kabi sohalarda muhimdir, chunki natijalarni tushuntirish zarur bo‘ladi.Tibbiy tashxis
qo‘yish uchun model yaratilayotganda bemorning qon bosimi, yurak urishi va xolesterin
darajasi kabi muhim ko‘rsatkichlar tanlanadi, lekin bemor ismi yoki telefon raqami kabi
ahamiyatsiz ma'lumotlar chiqarib tashlanadi.

Filtrlash usullari (Filter methods): Xususiyatlarning statistik xususiyatlari (masalan,

korrelyatsiya yoki x2-test) asosida tanlanadi.

O‘rash usullari (Wrapper methods): Modelning ishlashiga qarab xususiyatlar sinovdan

o‘tkaziladi (masalan, Recursive Feature Elimination).

Ichki usullar (Embedded methods): Model o‘qitish jarayonida xususiyatlarning

ahamiyati aniqlanadi (masalan, LASSO yoki daraxt asosli algoritmlar).

Xususiyatlar o‘zgartirish — bu xom ma'lumotlarni mashinaviy o‘qitish algoritmlari

uchun mos shaklga keltirish yoki yangi, foydali xususiyatlar yaratish jarayonidir. Bu jarayon
quyidagi afzalliklarni beradi:


background image

`

144

Xom ma'lumotlar ko‘pincha algoritmlar uchun to‘g‘ridan-to‘g‘ri ishlatishga yaroqsiz

bo‘ladi. Masalan, turli o‘lchov birliklaridagi xususiyatlarni normallashtirish yoki logarifmlash
orqali ularni bir xil shkalaga keltirish mumkin.

Yangi xususiyatlar yaratish orqali ma'lumotlar orasidagi muhim bog‘liqliklar aniqlanadi.

Masalan, ikkita xususiyatning nisbati yoki kombinatsiyasi model uchun muhim bo‘lishi
mumkin. Ba'zi algoritmlar, masalan, k-eng yaqin qo‘shnilar (k-NN) yoki gradient boosting,
xususiyatlarning bir xil o‘lchovda bo‘lishini talab qiladi. Normallashtirish yoki
standartlashtirish buni ta'minlaydi. Kategorik ma'lumotlar (masalan, "shahar" yoki "jins")
raqamli shaklga o‘tkaziladi. Buning uchun one-hot encoding yoki label encoding kabi usullar
qo‘llaniladi. Uy narxini bashorat qilish modelida xom xususiyatlar (uy maydoni, xonalar soni)
asosida yangi xususiyat yaratish mumkin, masalan, "bir xonaga to‘g‘ri keladigan maydon"
nisbati. Bu modelga qo‘shimcha ma'lumot beradi.

Normallashtirish va standartlashtirish: Xususiyatlarni [0, 1] oralig‘iga yoki o‘rtacha 0 va

dispersiya 1 ga keltirish.

Kategorik kodlash: Kategorik ma'lumotlarni raqamli shaklga o‘tkazish.
Yangi xususiyatlar yaratish: Mavjud xususiyatlardan matematik amallar yordamida

yangi xususiyatlar hosil qilish.

O‘lchovni o‘zgartirish: Logarifmlash yoki kvadrat ildiz olish kabi usullar bilan

ma'lumotlar taqsimotini yaxshilash.

Kredit berish xavfini bashorat qilish modelini ko‘rib chiqaylik. Xom ma'lumotlar

to‘plamida quyidagi xususiyatlar mavjud: mijozning yoshi, daromadi, kredit tarixi, ish joyi,
oilaviy holati va boshqalar.

Xususiyatlar tanlovi: Mijozning ismi yoki telefon raqami kabi kredit qobiliyatiga ta'sir

qilmaydigan xususiyatlar olib tashlanadi. Faqat daromad, kredit tarixi va qarz-yuklama nisbati
kabi muhim xususiyatlar qoldiriladi.

Xususiyatlar o‘zgartirish: Daromad va qarz miqdori normallashtiriladi, oilaviy holat one-

hot encoding orqali raqamli shaklga o‘tkaziladi, shuningdek, "qarz-daromad nisbati" kabi
yangi xususiyat yaratiladi.

Natijada, model nafaqat tezroq o‘qitiladi, balki mijozlarning kredit xavfini aniqroq

bashorat qiladi.

Xususiyatlar tanlovi va o‘zgartirish mashinaviy o‘qitish loyihalarida muhim rol o‘ynaydi.

Ular modelning samaradorligini oshiradi, hisoblash xarajatlarini kamaytiradi va natijalarni
tushunarli qiladi. To‘g‘ri amalga oshirilganda, bu jarayonlar ma'lumotlardan maksimal foyda
olishga yordam beradi va modelning amaliy dasturlarda muvaffaqiyatli ishlashini ta'minlaydi.
Shu sababli, har qanday mashinaviy o‘qitish loyihasida ushbu bosqichlarga alohida e'tibor
berish zarur.

References:

Используемая литература:

Foydalanilgan adabiyotlar:

1.

Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection.

Journal

of Machine Learning Research, 3

, 1157-1182.


background image

`

145

2.

Hastie, T., Tibshirani, R., & Friedman, J. (2009).

The Elements of Statistical Learning: Data

Mining, Inference, and Prediction (2nd ed.).

Springer.

3.

Kuhn, M., & Johnson, K. (2013).

Applied Predictive Modeling.

Springer.

4.

Zheng, A., & Casari, A. (2018).

Feature Engineering for Machine Learning: Principles and

Techniques for Data Scientists.

O’Reilly Media.

5.

Brownlee, J. (2020).

Data Preparation for Machine Learning: Data Cleaning, Feature

Selection, and Data Transforms in Python.

Machine Learning Mastery.

6.

Liu, H., & Motoda, H. (2007).

Computational Methods of Feature Selection.

Chapman and

Hall/CRC.
7.

Goodfellow, I., Bengio, Y., & Courville, A. (2016).

Deep Learning.

MIT Press.

8.

Onlayn resurs: Scikit-learn Documentation.

Feature Selection

(https://scikit-

learn.org/stable/modules/feature_selection.html).
9.

Onlayn

resurs:

Kaggle

Tutorials.

Feature

Engineering

(https://www.kaggle.com/learn/feature-engineering).
10.

Hall, M. A. (1999). Correlation-based Feature Selection for Machine Learning.

Doctoral

dissertation, University of Waikato.

Библиографические ссылки

Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer.

Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O’Reilly Media.

Brownlee, J. (2020). Data Preparation for Machine Learning: Data Cleaning, Feature Selection, and Data Transforms in Python. Machine Learning Mastery.

Liu, H., & Motoda, H. (2007). Computational Methods of Feature Selection. Chapman and Hall/CRC.

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

Onlayn resurs: Scikit-learn Documentation. Feature Selection (https://scikit-learn.org/stable/modules/feature_selection.html).

Onlayn resurs: Kaggle Tutorials. Feature Engineering (https://www.kaggle.com/learn/feature-engineering).

Hall, M. A. (1999). Correlation-based Feature Selection for Machine Learning. Doctoral dissertation, University of Waikato.