OVOZ ASOSIDA SHAXSNI IDENTIFIKATSIYALASH USULLARINING TAHLILI

A.A. Berdiyev; J.D.  Xudayberganov

doi:10.71337/inlibrary.uz.yosc.97940

Авторы

A.A. Berdiyev
PhD, Muhammad al-Xorazmiy nomidagi TATU, TRET kafedra mudiri
J.D. Xudayberganov
Muhammad al-Xorazmiy nomidagi TATU, mustaqil izlanuvchi

DOI:

https://doi.org/10.71337/inlibrary.uz.yosc.97940

Аннотация

Mazkur maqolada inson ovozi orqali shaxsni aniqlashga doir texnologiyalar va ularning zamonaviy yondashuvlari ko‘rib chiqiladi. Asosiy e’tibor Mel-chastotali spektral koeffitsiyentlar (MFCC) yordamida audio xususiyatlarini ajratib olish va mashina o‘rganish algoritmlari yordamida shaxsni aniqlashga qaratilgan

YOSH OLIMLAR

ILMIY-AMALIY KONFERENSIYASI

in-academy.uz/index.php/yo

130

OVOZ ASOSIDA SHAXSNI IDENTIFIKATSIYALASH USULLARINING TAHLILI

Berdiyev A.A.

PhD, Muhammad al-Xorazmiy nomidagi TATU, TRET kafedra mudiri

Xudayberganov J.D.

Muhammad al-Xorazmiy nomidagi TATU, mustaqil izlanuvchi

https://doi.org/10.5281/zenodo.15544857

Annotatsiya:

Mazkur maqolada inson ovozi orqali shaxsni aniqlashga doir texnologiyalar

va ularning zamonaviy yondashuvlari ko‘rib chiqiladi. Asosiy e’tibor Mel-chastotali spektral
koeffitsiyentlar (MFCC) yordamida audio xususiyatlarini ajratib olish va mashina o‘rganish
algoritmlari yordamida shaxsni aniqlashga qaratilgan.

1. Kirish

Hozirgi davrda axborot texnologiyalari jadal rivojlanib borayotgani sababli xavfsizlik va

autentifikatsiya tizimlariga bo‘lgan talab ortib bormoqda. Shaxsni aniqlash (identifikatsiya)
masalasi ko‘plab sohalarda — jumladan bank tizimlarida, davlat xizmatlarida, mobil qurilmalar
xavfsizligida, hamda masofaviy ta’lim va telemeditsina tizimlarida muhim ahamiyat kasb
etmoqda. Shaxsni aniqlashning an’anaviy usullari (parol, PIN-kod, kartochka) ko‘plab
kamchiliklarga ega bo‘lib, ular yo‘qotilishi, o‘g‘irlanishi yoki boshqa shaxslar tomonidan
noqonuniy qo‘llanilishi mumkin. Shu sababli, kontaktga kirmaydigan, ishonchli va qulay
autentifikatsiya usullariga ehtiyoj ortib bormoqda. Bu ehtiyojlar fonida biometrik
identifikatsiya tizimlari, xususan, ovoz asosida shaxsni aniqlash texnologiyalari dolzarb
yo‘nalish sifatida shakllanmoqda.

Ovoz asosida shaxsni aniqlash — bu insonning nutqidan olinadigan akustik va statistik

xususiyatlarga asoslanib, uni boshqa shaxslardan ajratish texnologiyasidir. Har bir insonning
ovoz tembri, tonalligi, talaffuzi va boshqa individual xususiyatlari uni noyob qiladi. Aynan shu
jihatlar, avtomatlashtirilgan tizimlar yordamida shaxsni aniqlashda asosiy belgi bo‘lib xizmat
qiladi. Ushbu texnologiya, ayniqsa, mobil qurilmalarda ovozli parollar o‘rnini bosuvchi
autentifikatsiya vositasi sifatida tobora keng qo‘llanilmoqda. Ovoz orqali identifikatsiya
tizimlari foydalanuvchi tomonidan hech qanday harakat talab qilmaydi, bu esa ularni qulay va
tabiiy interfeysga aylantiradi.

Ovoz asosidagi identifikatsiya tizimlari odatda ikki bosqichdan iborat: birinchi bosqichda

audio signalni raqamli ko‘rinishga o‘tkazish va undan xususiyatlarni ajratib olish (feature
extraction), ikkinchi bosqichda esa o‘rganilgan model orqali foydalanuvchini aniqlash
(classification). Xususiyatlarni ajratish uchun eng ko‘p qo‘llaniladigan metodlardan biri — bu

Mel-chastotali spektral koeffitsiyentlar (MFCC)

. MFCC inson qulog‘ining eshitish

xususiyatlarini inobatga olgan holda signalning muhim komponentlarini ajratib olish imkonini
beradi. Shundan so‘ng, mashina o‘rganish algoritmlari — masalan, K yaqin qo‘shni (k-NN),
qo‘llab-quvvatlovchi vektor mashinasi (SVM), yoki chuqur o‘rganish (DNN, LSTM) asosida
klassifikatsiya amalga oshiriladi [1].

Ushbu tadqiqot ovozga asoslangan autentifikatsiya tizimlarini yaratish va

takomillashtirishda nazariy va amaliy asos bo‘lib xizmat qilishi mumkin.

2. Ovoz signallarini xususiyatlarini ajratish usuli

Ovoz signallari orqali shaxsni aniqlashda eng muhim bosqichlardan biri bu — signalning

muhim va farqlovchi xususiyatlarini aniqlashdir. Raqamli signalda juda ko‘p miqdorda
ma’lumot bo‘lganligi sababli, har bir insonning o‘ziga xos ovoz belgilari aniqlanishi va bu
belgilar modelga berilishi kerak. Buning uchun, signalni optimallashtirib, faqat kerakli

YOSH OLIMLAR

ILMIY-AMALIY KONFERENSIYASI

in-academy.uz/index.php/yo

131

xususiyatlarni ajratib olishga xizmat qiluvchi algoritmlar qo‘llaniladi. Ular orasida eng
samaralilaridan biri —

Mel-chastotali spektral koeffitsiyentlar (MFCC)

hisoblanadi (1-

rasm).

1-rasm. Pitch va MFCC yordamida dinamikni aniqlash
MFCC algoritmi inson qulog‘ining sezgirlik xususiyatlariga asoslangan bo‘lib, ovoz

signalining spektral tarkibini Mel shkalasida tahlil qiladi. Bu metod audio signalning past
chastotalariga ko‘proq e’tibor qaratadi, chunki inson qulog‘i aynan shu diapazonda eng sezgir
bo‘ladi. MFCC yordamida yuqori o‘lchamli signal ma’lumotlari ixcham va samarali belgilar
to‘plamiga aylantiriladi.

MFCC hisoblash bosqichma-bosqich quyidagicha amalga oshiriladi:

1.

Framing (bo‘laklash)

– signal 20–40 ms intervallarga bo‘linadi.

2.

Windowing

– har bir bo‘lak Hamming oynasi orqali silliqlanadi.

3.

Fast Fourier Transform (FFT)

– signal chastota doirasiga o‘tkaziladi.

4.

Mel filter bank

– spektral kuch Mel o‘lchoviga muvofiq filtrlardan o‘tkaziladi.

5.

Logarifmik amplituda

– log funksiyasi orqali sezgirlik darajasi o‘zgartiriladi.

6.

Diskret Kosinus Transformatsiyasi (DCT)

– olingan ma’lumotlar ixcham

koeffitsiyentlarga aylantiriladi.

MFCC natijasida har bir signal bo‘lagi uchun odatda 12–13 ta asosiy koeffitsiyent olinadi.

Ushbu koeffitsiyentlar insonning talaffuzi, tembri, so‘zlash uslubi kabi o‘ziga xos akustik
xususiyatlarini aks ettiradi. Bu ko‘rsatkichlar mashina o‘rganish algoritmlari uchun kirish
ma’lumotlari sifatida ishlatiladi.

MFCCdan tashqari boshqa metodlar ham mavjud: Linear Predictive Coding (LPC),

Perceptual Linear Prediction (PLP), yoki prosodik xususiyatlar (intonatsiya, pauzalar va h.k.).
Biroq MFCC ko‘p hollarda aniqligi va ishlash tezligi bo‘yicha ustunlikka ega. Shu sababli,
aksariyat ovozli identifikatsiya tizimlarida asosiy xususiyat ajratuvchi vosita sifatida MFCC
qo‘llaniladi.

3. Klassifikatsiya usullari

Ovoz signallaridan xususiyatlarni ajratib olingach, navbatdagi bosqich — bu

klassifikatsiya

, ya’ni ushbu xususiyatlarga asoslanib foydalanuvchining shaxsini aniqlashdir.

Klassifikatsiya — mashina o‘rganish (machine learning) va chuqur o‘rganish (deep learning)
usullariga asoslangan bo‘lib, u orqali har bir audio namunani oldindan belgilangan
foydalanuvchilar toifalaridan biriga ajratish amalga oshiriladi. Bu bosqichda to‘plangan

YOSH OLIMLAR

ILMIY-AMALIY KONFERENSIYASI

in-academy.uz/index.php/yo

132

xususiyatlar (masalan, MFCC koeffitsiyentlari) modelga kirish sifatida beriladi va model ushbu
ma’lumotlarga asoslanib shaxsni aniqlaydi.

Keng tarqalgan klassifikatsiya usullaridan biri bu

K yaqin qo‘shni (K-Nearest

Neighbors, KNN)

algoritmidir. Ushbu metodda yangi signalning xususiyatlari mavjud bazadagi

boshqa signallarga o‘xshashlik darajasiga qarab baholanadi. O‘xshashlik Evklid masofasi yoki
boshqa masofa o‘lchovlari orqali aniqlanadi. KNN oddiy va tushunarli bo‘lsa-da, katta hajmdagi
ma’lumotlar bilan ishlashda samaradorligi pasayadi.

Yana bir samarali yondashuv bu —

Qo‘llab-quvvatlovchi vektor mashinasi (Support

Vector Machine, SVM)

. SVM kirish xususiyatlarini analiz qilib, sinflar orasida maksimal

farqlovchi chegara (hyperplane) aniqlaydi. U kichik hajmdagi ma’lumotlar bilan ham yuqori
aniqlikda ishlaydi, ayniqsa MFCC asosida ajratilgan xususiyatlar bilan birgalikda.

So‘nggi yillarda

chuqur o‘rganish (deep learning)

asosidagi yondashuvlar — masalan,

Ko‘p qatlamli neyron tarmoqlar (DNN)

,

Konvolyutsion neyron tarmoqlar (CNN)

va

Uzoq-

qisqa xotiraga ega tarmoqlar (LSTM)

keng ommalashmoqda (2-rasm). Bu tarmoqlar katta

hajmdagi audio ma’lumotlardan murakkab naqshlarni aniqlay oladi. Masalan, LSTM tarmoqlari
vaqt ketma-ketligi bo‘yicha o‘zgaradigan signal xususiyatlarini samarali tahlil qilishi bilan
ajralib turadi [2].

2-rasm. LTSM modeli arxitekturasi
Shuningdek, klassifikatsiya modelining aniqligini oshirish uchun

ansambl metodlar

(bir

nechta modellarning kombinatsiyasi) ham ishlatilmoqda. Bunday yondashuvlar modelning
barqarorligini va umumlashma qobiliyatini kuchaytiradi.

Umuman olganda, ovoz asosidagi shaxs identifikatsiyasida tanlanadigan klassifikator

tizimning tezligi, aniqligi va ishlov berish resurslariga bog‘liq bo‘ladi. Har bir metodning afzallik
va kamchiliklarini inobatga olib, real tizimlar uchun optimal yondashuv tanlanadi.

4. Eksperimental natijalar

Ovoz asosida shaxsni aniqlash tizimining samaradorligini baholash uchun turli tajriba

sinovlari o‘tkazildi. Eksperimentlar davomida MFCC yordamida xususiyatlar ajratildi va bir
nechta mashina o‘rganish klassifikatorlari orqali identifikatsiya jarayoni amalga oshirildi.
Tajribalar Python dasturlash tilida,

Librosa

,

Scikit-learn

va

TensorFlow

kutubxonalari

asosida bajarildi.

Eksperiment uchun har bir foydalanuvchidan taxminan 10 ta ovoz namunasi yig‘ildi.

Namunalar 16 kHz chastotada yozildi va MFCC yordamida har bir audio fayldan 13 ta asosiy
xususiyat koeffitsiyenti ajratib olindi. Ma’lumotlar 80% trening, 20% test to‘plamiga ajratildi.
Klassifikator sifatida KNN, SVM va LSTM modellari tanlab olindi. Modellarning ishlashi

aniqlik

(accuracy)

,

aniqlik darajasi (precision)

,

qayta chaqirish (recall)

va

F1-mezon

kabi

metrikalar asosida baholandi.

YOSH OLIMLAR

ILMIY-AMALIY KONFERENSIYASI

in-academy.uz/index.php/yo

133

Natijalar quyidagicha bo‘ldi:



KNN klassifikatori

: aniqlik – 86%, F1-mezon – 0.84. Bu model kichik o‘rgatuvchi to‘plam

bilan yaxshi ishladi, ammo katta hajmda sekinroq ishlaydi.



SVM klassifikatori

: aniqlik – 91%, F1-mezon – 0.89. SVM kichik va o‘rta hajmli to‘plamlar

uchun juda samarali bo‘ldi.



LSTM neyron tarmog‘i

: aniqlik – 95%, F1-mezon – 0.93. Ushbu model vaqt ketma-

ketliklaridagi o‘zgarishlarni yaxshi o‘rganib, eng yuqori aniqlikni ko‘rsatdi.

Shuningdek, shovqinli muhitda (masalan, fon tovushi bo‘lgan holatlarda) har bir

modelning barqarorligi ham sinovdan o‘tkazildi. LSTM modeli fon shovqinlariga nisbatan eng
barqaror natijalarni ko‘rsatdi, chunki u vaqt bo‘yicha kontekstni hisobga oladi. KNN esa bu
holatda sezilarli aniqlik pasayishini ko‘rsatdi.

Tajribalar shuni ko‘rsatdiki, chuqur o‘rganish modellari (ayniqsa, LSTM) real vaqtda ovoz

asosida shaxs identifikatsiyasi uchun eng mos yondashuv hisoblanadi. Ular katta hajmdagi
audio to‘plamlarda barqaror va yuqori aniqlik bilan ishlaydi.

5. Xulosa

Ovoz asosida shaxsni identifikatsiya qilish bugungi kunda xavfsizlik, mobil

autentifikatsiya va aqlli tizimlarda dolzarb masala hisoblanadi. Ushbu maqolada ovoz
signallarini raqamli ishlov berish, MFCC asosida xususiyatlarni ajratish va turli klassifikatsiya
usullarining samaradorligi ko‘rib chiqildi. Tajriba natijalari LSTM kabi chuqur o‘rganish
modellarining yuqori aniqlik va barqarorlikka ega ekanini ko‘rsatdi. Kelgusida ushbu tizimlarni
real vaqtda ishlaydigan va ko‘p tilli foydalanuvchilar uchun moslashtirilgan holda kengaytirish
istiqbollari mavjud.

References:

Используемая литература:

Foydalanilgan adabiyotlar:

1.

Рахимов Б.Н., Худайберганов Ж.Д., Иниятова К. Улучшение качества речевых

сигналов на основе искусственного интеллекта (ИИ). “Zamonaviy sun‘iy yo‘ldosh
multimediya va aloqa tizimlari” mavzusidagi xalqaro anjuman 2023 yil 24-25 oktyabr.
2.

Рахимов Б.Н., Худайберганов Ж.Д. Разработка цифровых фильтров для улучшения

качества речевого сигнала. “Zamonaviy sun‘iy yo‘ldosh multimediya va aloqa tizimlari”
mavzusidagi xalqaro anjuman, 2023 yil 24-25 oktyabr.

Библиографические ссылки

Рахимов Б.Н., Худайберганов Ж.Д., Иниятова К. Улучшение качества речевых сигналов на основе искусственного интеллекта (ИИ). “Zamonaviy sun‘iy yo‘ldosh multimediya va aloqa tizimlari” mavzusidagi xalqaro anjuman 2023 yil 24-25 oktyabr.

Рахимов Б.Н., Худайберганов Ж.Д. Разработка цифровых фильтров для улучшения качества речевого сигнала. “Zamonaviy sun‘iy yo‘ldosh multimediya va aloqa tizimlari” mavzusidagi xalqaro anjuman, 2023 yil 24-25 oktyabr.