YOSH OLIMLAR
ILMIY-AMALIY KONFERENSIYASI
in-academy.uz/index.php/yo
130
OVOZ ASOSIDA SHAXSNI IDENTIFIKATSIYALASH USULLARINING TAHLILI
Berdiyev A.A.
PhD, Muhammad al-Xorazmiy nomidagi TATU, TRET kafedra mudiri
Xudayberganov J.D.
Muhammad al-Xorazmiy nomidagi TATU, mustaqil izlanuvchi
https://doi.org/10.5281/zenodo.15544857
Annotatsiya:
Mazkur maqolada inson ovozi orqali shaxsni aniqlashga doir texnologiyalar
va ularning zamonaviy yondashuvlari ko‘rib chiqiladi. Asosiy e’tibor Mel-chastotali spektral
koeffitsiyentlar (MFCC) yordamida audio xususiyatlarini ajratib olish va mashina o‘rganish
algoritmlari yordamida shaxsni aniqlashga qaratilgan.
1. Kirish
Hozirgi davrda axborot texnologiyalari jadal rivojlanib borayotgani sababli xavfsizlik va
autentifikatsiya tizimlariga bo‘lgan talab ortib bormoqda. Shaxsni aniqlash (identifikatsiya)
masalasi ko‘plab sohalarda — jumladan bank tizimlarida, davlat xizmatlarida, mobil qurilmalar
xavfsizligida, hamda masofaviy ta’lim va telemeditsina tizimlarida muhim ahamiyat kasb
etmoqda. Shaxsni aniqlashning an’anaviy usullari (parol, PIN-kod, kartochka) ko‘plab
kamchiliklarga ega bo‘lib, ular yo‘qotilishi, o‘g‘irlanishi yoki boshqa shaxslar tomonidan
noqonuniy qo‘llanilishi mumkin. Shu sababli, kontaktga kirmaydigan, ishonchli va qulay
autentifikatsiya usullariga ehtiyoj ortib bormoqda. Bu ehtiyojlar fonida biometrik
identifikatsiya tizimlari, xususan, ovoz asosida shaxsni aniqlash texnologiyalari dolzarb
yo‘nalish sifatida shakllanmoqda.
Ovoz asosida shaxsni aniqlash — bu insonning nutqidan olinadigan akustik va statistik
xususiyatlarga asoslanib, uni boshqa shaxslardan ajratish texnologiyasidir. Har bir insonning
ovoz tembri, tonalligi, talaffuzi va boshqa individual xususiyatlari uni noyob qiladi. Aynan shu
jihatlar, avtomatlashtirilgan tizimlar yordamida shaxsni aniqlashda asosiy belgi bo‘lib xizmat
qiladi. Ushbu texnologiya, ayniqsa, mobil qurilmalarda ovozli parollar o‘rnini bosuvchi
autentifikatsiya vositasi sifatida tobora keng qo‘llanilmoqda. Ovoz orqali identifikatsiya
tizimlari foydalanuvchi tomonidan hech qanday harakat talab qilmaydi, bu esa ularni qulay va
tabiiy interfeysga aylantiradi.
Ovoz asosidagi identifikatsiya tizimlari odatda ikki bosqichdan iborat: birinchi bosqichda
audio signalni raqamli ko‘rinishga o‘tkazish va undan xususiyatlarni ajratib olish (feature
extraction), ikkinchi bosqichda esa o‘rganilgan model orqali foydalanuvchini aniqlash
(classification). Xususiyatlarni ajratish uchun eng ko‘p qo‘llaniladigan metodlardan biri — bu
Mel-chastotali spektral koeffitsiyentlar (MFCC)
. MFCC inson qulog‘ining eshitish
xususiyatlarini inobatga olgan holda signalning muhim komponentlarini ajratib olish imkonini
beradi. Shundan so‘ng, mashina o‘rganish algoritmlari — masalan, K yaqin qo‘shni (k-NN),
qo‘llab-quvvatlovchi vektor mashinasi (SVM), yoki chuqur o‘rganish (DNN, LSTM) asosida
klassifikatsiya amalga oshiriladi [1].
Ushbu tadqiqot ovozga asoslangan autentifikatsiya tizimlarini yaratish va
takomillashtirishda nazariy va amaliy asos bo‘lib xizmat qilishi mumkin.
2. Ovoz signallarini xususiyatlarini ajratish usuli
Ovoz signallari orqali shaxsni aniqlashda eng muhim bosqichlardan biri bu — signalning
muhim va farqlovchi xususiyatlarini aniqlashdir. Raqamli signalda juda ko‘p miqdorda
ma’lumot bo‘lganligi sababli, har bir insonning o‘ziga xos ovoz belgilari aniqlanishi va bu
belgilar modelga berilishi kerak. Buning uchun, signalni optimallashtirib, faqat kerakli
YOSH OLIMLAR
ILMIY-AMALIY KONFERENSIYASI
in-academy.uz/index.php/yo
131
xususiyatlarni ajratib olishga xizmat qiluvchi algoritmlar qo‘llaniladi. Ular orasida eng
samaralilaridan biri —
Mel-chastotali spektral koeffitsiyentlar (MFCC)
hisoblanadi (1-
rasm).
1-rasm. Pitch va MFCC yordamida dinamikni aniqlash
MFCC algoritmi inson qulog‘ining sezgirlik xususiyatlariga asoslangan bo‘lib, ovoz
signalining spektral tarkibini Mel shkalasida tahlil qiladi. Bu metod audio signalning past
chastotalariga ko‘proq e’tibor qaratadi, chunki inson qulog‘i aynan shu diapazonda eng sezgir
bo‘ladi. MFCC yordamida yuqori o‘lchamli signal ma’lumotlari ixcham va samarali belgilar
to‘plamiga aylantiriladi.
MFCC hisoblash bosqichma-bosqich quyidagicha amalga oshiriladi:
1.
Framing (bo‘laklash)
– signal 20–40 ms intervallarga bo‘linadi.
2.
Windowing
– har bir bo‘lak Hamming oynasi orqali silliqlanadi.
3.
Fast Fourier Transform (FFT)
– signal chastota doirasiga o‘tkaziladi.
4.
Mel filter bank
– spektral kuch Mel o‘lchoviga muvofiq filtrlardan o‘tkaziladi.
5.
Logarifmik amplituda
– log funksiyasi orqali sezgirlik darajasi o‘zgartiriladi.
6.
Diskret Kosinus Transformatsiyasi (DCT)
– olingan ma’lumotlar ixcham
koeffitsiyentlarga aylantiriladi.
MFCC natijasida har bir signal bo‘lagi uchun odatda 12–13 ta asosiy koeffitsiyent olinadi.
Ushbu koeffitsiyentlar insonning talaffuzi, tembri, so‘zlash uslubi kabi o‘ziga xos akustik
xususiyatlarini aks ettiradi. Bu ko‘rsatkichlar mashina o‘rganish algoritmlari uchun kirish
ma’lumotlari sifatida ishlatiladi.
MFCCdan tashqari boshqa metodlar ham mavjud: Linear Predictive Coding (LPC),
Perceptual Linear Prediction (PLP), yoki prosodik xususiyatlar (intonatsiya, pauzalar va h.k.).
Biroq MFCC ko‘p hollarda aniqligi va ishlash tezligi bo‘yicha ustunlikka ega. Shu sababli,
aksariyat ovozli identifikatsiya tizimlarida asosiy xususiyat ajratuvchi vosita sifatida MFCC
qo‘llaniladi.
3. Klassifikatsiya usullari
Ovoz signallaridan xususiyatlarni ajratib olingach, navbatdagi bosqich — bu
klassifikatsiya
, ya’ni ushbu xususiyatlarga asoslanib foydalanuvchining shaxsini aniqlashdir.
Klassifikatsiya — mashina o‘rganish (machine learning) va chuqur o‘rganish (deep learning)
usullariga asoslangan bo‘lib, u orqali har bir audio namunani oldindan belgilangan
foydalanuvchilar toifalaridan biriga ajratish amalga oshiriladi. Bu bosqichda to‘plangan
YOSH OLIMLAR
ILMIY-AMALIY KONFERENSIYASI
in-academy.uz/index.php/yo
132
xususiyatlar (masalan, MFCC koeffitsiyentlari) modelga kirish sifatida beriladi va model ushbu
ma’lumotlarga asoslanib shaxsni aniqlaydi.
Keng tarqalgan klassifikatsiya usullaridan biri bu
K yaqin qo‘shni (K-Nearest
Neighbors, KNN)
algoritmidir. Ushbu metodda yangi signalning xususiyatlari mavjud bazadagi
boshqa signallarga o‘xshashlik darajasiga qarab baholanadi. O‘xshashlik Evklid masofasi yoki
boshqa masofa o‘lchovlari orqali aniqlanadi. KNN oddiy va tushunarli bo‘lsa-da, katta hajmdagi
ma’lumotlar bilan ishlashda samaradorligi pasayadi.
Yana bir samarali yondashuv bu —
Qo‘llab-quvvatlovchi vektor mashinasi (Support
Vector Machine, SVM)
. SVM kirish xususiyatlarini analiz qilib, sinflar orasida maksimal
farqlovchi chegara (hyperplane) aniqlaydi. U kichik hajmdagi ma’lumotlar bilan ham yuqori
aniqlikda ishlaydi, ayniqsa MFCC asosida ajratilgan xususiyatlar bilan birgalikda.
So‘nggi yillarda
chuqur o‘rganish (deep learning)
asosidagi yondashuvlar — masalan,
Ko‘p qatlamli neyron tarmoqlar (DNN)
,
Konvolyutsion neyron tarmoqlar (CNN)
va
Uzoq-
qisqa xotiraga ega tarmoqlar (LSTM)
keng ommalashmoqda (2-rasm). Bu tarmoqlar katta
hajmdagi audio ma’lumotlardan murakkab naqshlarni aniqlay oladi. Masalan, LSTM tarmoqlari
vaqt ketma-ketligi bo‘yicha o‘zgaradigan signal xususiyatlarini samarali tahlil qilishi bilan
ajralib turadi [2].
2-rasm. LTSM modeli arxitekturasi
Shuningdek, klassifikatsiya modelining aniqligini oshirish uchun
ansambl metodlar
(bir
nechta modellarning kombinatsiyasi) ham ishlatilmoqda. Bunday yondashuvlar modelning
barqarorligini va umumlashma qobiliyatini kuchaytiradi.
Umuman olganda, ovoz asosidagi shaxs identifikatsiyasida tanlanadigan klassifikator
tizimning tezligi, aniqligi va ishlov berish resurslariga bog‘liq bo‘ladi. Har bir metodning afzallik
va kamchiliklarini inobatga olib, real tizimlar uchun optimal yondashuv tanlanadi.
4. Eksperimental natijalar
Ovoz asosida shaxsni aniqlash tizimining samaradorligini baholash uchun turli tajriba
sinovlari o‘tkazildi. Eksperimentlar davomida MFCC yordamida xususiyatlar ajratildi va bir
nechta mashina o‘rganish klassifikatorlari orqali identifikatsiya jarayoni amalga oshirildi.
Tajribalar Python dasturlash tilida,
Librosa
,
Scikit-learn
va
TensorFlow
kutubxonalari
asosida bajarildi.
Eksperiment uchun har bir foydalanuvchidan taxminan 10 ta ovoz namunasi yig‘ildi.
Namunalar 16 kHz chastotada yozildi va MFCC yordamida har bir audio fayldan 13 ta asosiy
xususiyat koeffitsiyenti ajratib olindi. Ma’lumotlar 80% trening, 20% test to‘plamiga ajratildi.
Klassifikator sifatida KNN, SVM va LSTM modellari tanlab olindi. Modellarning ishlashi
aniqlik
(accuracy)
,
aniqlik darajasi (precision)
,
qayta chaqirish (recall)
va
F1-mezon
kabi
metrikalar asosida baholandi.
YOSH OLIMLAR
ILMIY-AMALIY KONFERENSIYASI
in-academy.uz/index.php/yo
133
Natijalar quyidagicha bo‘ldi:
KNN klassifikatori
: aniqlik – 86%, F1-mezon – 0.84. Bu model kichik o‘rgatuvchi to‘plam
bilan yaxshi ishladi, ammo katta hajmda sekinroq ishlaydi.
SVM klassifikatori
: aniqlik – 91%, F1-mezon – 0.89. SVM kichik va o‘rta hajmli to‘plamlar
uchun juda samarali bo‘ldi.
LSTM neyron tarmog‘i
: aniqlik – 95%, F1-mezon – 0.93. Ushbu model vaqt ketma-
ketliklaridagi o‘zgarishlarni yaxshi o‘rganib, eng yuqori aniqlikni ko‘rsatdi.
Shuningdek, shovqinli muhitda (masalan, fon tovushi bo‘lgan holatlarda) har bir
modelning barqarorligi ham sinovdan o‘tkazildi. LSTM modeli fon shovqinlariga nisbatan eng
barqaror natijalarni ko‘rsatdi, chunki u vaqt bo‘yicha kontekstni hisobga oladi. KNN esa bu
holatda sezilarli aniqlik pasayishini ko‘rsatdi.
Tajribalar shuni ko‘rsatdiki, chuqur o‘rganish modellari (ayniqsa, LSTM) real vaqtda ovoz
asosida shaxs identifikatsiyasi uchun eng mos yondashuv hisoblanadi. Ular katta hajmdagi
audio to‘plamlarda barqaror va yuqori aniqlik bilan ishlaydi.
5. Xulosa
Ovoz asosida shaxsni identifikatsiya qilish bugungi kunda xavfsizlik, mobil
autentifikatsiya va aqlli tizimlarda dolzarb masala hisoblanadi. Ushbu maqolada ovoz
signallarini raqamli ishlov berish, MFCC asosida xususiyatlarni ajratish va turli klassifikatsiya
usullarining samaradorligi ko‘rib chiqildi. Tajriba natijalari LSTM kabi chuqur o‘rganish
modellarining yuqori aniqlik va barqarorlikka ega ekanini ko‘rsatdi. Kelgusida ushbu tizimlarni
real vaqtda ishlaydigan va ko‘p tilli foydalanuvchilar uchun moslashtirilgan holda kengaytirish
istiqbollari mavjud.
References:
Используемая литература:
Foydalanilgan adabiyotlar:
1.
Рахимов Б.Н., Худайберганов Ж.Д., Иниятова К. Улучшение качества речевых
сигналов на основе искусственного интеллекта (ИИ). “Zamonaviy sun‘iy yo‘ldosh
multimediya va aloqa tizimlari” mavzusidagi xalqaro anjuman 2023 yil 24-25 oktyabr.
2.
Рахимов Б.Н., Худайберганов Ж.Д. Разработка цифровых фильтров для улучшения
качества речевого сигнала. “Zamonaviy sun‘iy yo‘ldosh multimediya va aloqa tizimlari”
mavzusidagi xalqaro anjuman, 2023 yil 24-25 oktyabr.