Authors

  • Hamidullo To’ychiboyev

DOI:

https://doi.org/10.71337/inlibrary.uz.science-research.138592

Keywords:

nutqni matnga o‘tkazish Speech-to-Text STT mobil dasturlash sun’iy intellekt tabiiy tilni qayta ishlash neyron tarmoq akustik model til modeli DeepSpeech Whisper Android API ovozli interfeys real vaqt tanib olish o‘zbek tili.

Abstract

Mazkur tezisda mobil dasturlarda nutqni matnga o‘tkazish texnologiyalarining ishlash tamoyillari, asosiy bosqichlari va zamonaviy neyron modellar asosidagi yondashuvlar tahlil qilinadi. Nutqni matnga o‘tkazish jarayonining akustik modeli, til modeli va xususiyat ajratish bosqichlari ilmiy jihatdan o‘rganilgan. Shuningdek, Android platformasida STT texnologiyasini joriy etish usullari va amaliy kod namunasi keltirilgan. Tadqiqot natijalari STT texnologiyalarining mobil tizimlardagi qulaylik darajasini oshirishi, foydalanuvchi bilan muloqotni tabiiylashtirishi hamda o‘zbek tili uchun ham keng istiqbolli yo‘nalish ekanini ko‘rsatadi.

background image

2025

OKTABR

NEW RENAISSANCE

INTERNATIONAL SCIENTIFIC AND PRACTICAL CONFERENCE

VOLUME 2

|

ISSUE 10

185

MOBIL DASTURLARDA NUTQNI MATNGA O‘TKAZISH TEXNOLOGIYALARINING

TAHLILI

To’ychiboyev Hamidullo Habibullo o’g’li

Namangan viloyati, Namangan shaxar

Namangan Davlat Texnika Universiteti, RTTM xodimi

https://doi.org/10.5281/zenodo.17406523

Annotatsiya.

Mazkur

tezisda

mobil

dasturlarda

nutqni matnga o‘tkazish

texnologiyalarining ishlash tamoyillari, asosiy bosqichlari va zamonaviy neyron modellar
asosidagi yondashuvlar tahlil qilinadi. Nutqni matnga o‘tkazish jarayonining akustik modeli, til
modeli va xususiyat ajratish bosqichlari ilmiy jihatdan o‘rganilgan. Shuningdek, Android
platformasida STT texnologiyasini joriy etish usullari va amaliy kod namunasi keltirilgan.
Tadqiqot natijalari STT texnologiyalarining mobil tizimlardagi qulaylik darajasini oshirishi,
foydalanuvchi bilan muloqotni tabiiylashtirishi hamda o‘zbek tili uchun ham keng istiqbolli
yo‘nalish ekanini ko‘rsatadi.

Kalit so‘zlar:

nutqni matnga o‘tkazish, Speech-to-Text, STT, mobil dasturlash, sun’iy

intellekt, tabiiy tilni qayta ishlash, neyron tarmoq, akustik model, til modeli, DeepSpeech,
Whisper, Android API, ovozli interfeys, real vaqt tanib olish, o‘zbek tili.


So‘nggi yillarda mobil qurilmalar inson hayotining ajralmas qismiga aylandi. Ularning

imkoniyatlari kengaygani sayin foydalanuvchi bilan o‘zaro aloqani soddalashtirish va
tabiiylashtirish masalasi dolzarb bo‘lib bormoqda. Aynan shu maqsadda nutqni matnga o‘tkazish
(Speech-to-Text, STT) texnologiyasi mobil ilovalarning asosiy komponentlaridan biriga aylandi.
Ushbu texnologiya foydalanuvchining ovozli nutqini tahlil qilib, uni raqamli matn shakliga
aylantiradi. Bu esa mobil chat-botlar, ovozli yordamchilar, diktovka tizimlari, ta’lim ilovalari va
ovoz orqali boshqariladigan servislar uchun asosiy yechim bo‘lib xizmat qiladi. Mazkur tezisda
nutqni matnga o‘tkazish texnologiyasining ishlash prinsiplari, texnik bosqichlari, qo‘llanilayotgan
sun’iy intellekt modellarining tahlili hamda mobil dasturlashdagi amaliy yechimlari ko‘rib
chiqiladi.

Nutqni matnga o‘tkazish (Speech-to-Text, STT) texnologiyasi dastlab 1950–1960-yillarda

fonetik analizatorlar orqali sodda buyruqlarni aniqlashdan boshlangan. Dastlabki tizimlar fonetik
signallarni sonli kodlar yordamida tahlil qilgan, ammo nutqning grammatik murakkabligi, urg‘u,
ohang va kontekstni tushunish imkoniyatiga ega bo‘lmagan. Bugungi kunda esa STT tizimlari
sun’iy intellektning chuqur o‘rganish (Deep Learning) yondashuvlariga asoslanadi. Ayniqsa,
Transformer va Self-Attention arxitekturalari nutq signallarini kontekstuallash orqali matnga
yuqori aniqlikda aylantirish imkonini berdi. Masalan, Wav2Vec 2.0, Whisper, HuBERT,
SpeechBrain kabi modellar hozirgi STT tizimlarining asosini tashkil etadi. Ular tovush signallarini
fonemalarga emas, balki vektor fazodagi semantik vakilliklarga aylantiradi. Bu yondashuv tildan
mustaqil ishlash imkonini beradi va ko‘p tillilikni qo‘llab-quvvatlaydi.

Nutqni matnga o‘tkazuvchi mobil tizimlar uch pog‘onali arxitekturaga ega:
1.

Audio capture layer — foydalanuvchi nutqini real vaqt rejimida yozib oluvchi

modul. U mobil qurilmaning mikrofonidan kiruvchi signalni PCM (Pulse Code Modulation)
formatida qabul qiladi va 16 kHz chastotada namunalanadi.


background image

2025

OKTABR

NEW RENAISSANCE

INTERNATIONAL SCIENTIFIC AND PRACTICAL CONFERENCE

VOLUME 2

|

ISSUE 10

186

2.

Processing layer — bu qatlamda signalga raqamli ishlov berish amalga oshiriladi.

Hamming oynasi, Fourier transformatsiyasi (FFT) va Mel filterbank funksiyalari yordamida
nutqning spektral xaritasi olinadi. Shundan so‘ng modelga yuborish uchun MFCC yoki log-Mel
spektrogramlar shakllantiriladi.

3.

Model inference layer — bu bosqichda neyron model (masalan, Whisper yoki

DeepSpeech) audio xususiyatlarini matnga aylantiradi. Natija probability decoding orqali CTC
(Connectionist Temporal Classification) algoritmi yordamida yakuniy matn shakliga keltiriladi.

Bu qatlamlarning mobil qurilmada ishlashi uchun yengillashtirilgan modellar, masalan,

TensorFlow Lite, ONNX Mobile yoki PyTorch Mobile versiyalari qo‘llaniladi. Ular RAM va
CPU resurslarini tejaydi, bu esa real vaqtli ishlashni ta’minlaydi.

O‘zbek tili fonetik jihatdan agglutinativ bo‘lgani sababli, so‘zlarning ko‘plab shakllari

mavjud. Bu esa STT modelining morfologik umumlashtirish imkoniyatini murakkablashtiradi.

Shuning uchun o‘zbek tili uchun quyidagi yondashuvlar samarali hisoblanadi:
1.

Subword tokenization (masalan, Byte-Pair Encoding — BPE) orqali yangi yoki

qo‘shma so‘zlarni avtomatik tahlil qilish;

2.

Custom language model yordamida o‘zbekcha matnlar korpusidan til qoidalarini

o‘rganish;

3.

Data augmentation — nutq tezligini o‘zgartirish, shovqin qo‘shish va ovoz

diapazonini kengaytirish orqali ma’lumotlar bazasini boyitish.

Bugungi kunda o‘zbek tili uchun ochiq manbali loyihalar paydo bo‘lmoqda. Masalan,

“Vosk Uzbek Model” va “Whisper uz-small” modellarining mavjudligi STT texnologiyalarini
lokal loyihalarda joriy etish imkonini bermoqda.

Mobil dasturlarda STT texnologiyasi foydalanuvchi tajribasini sezilarli darajada

yengillashtiradi. Quyidagi amaliy yechimlar bunga misol bo‘la oladi:

1.

Diktovka ilovalari: foydalanuvchi nutqini yozuvga aylantiruvchi oflayn rejimli

dasturlar (masalan, Notta.ai, Gboard Voice Input).

2.

Ovozli boshqaruv: IoT asosidagi ilovalarda foydalanuvchi ovoz orqali buyruqlar

beradi.

3.

Ta’lim platformalari: talaffuzni tahlil qilish, o‘quvchi nutqini avtomatik yozuvga

o‘tkazish (masalan, Duolingo Speaking Practice).

4.

Nogironligi bor foydalanuvchilar uchun ilovalar: STT texnologiyasi eshitish yoki

qo‘l harakatida cheklovga ega foydalanuvchilarga imkoniyat yaratadi.

Mobil dasturlashda STT integratsiyasining samarali yo‘li — hibrid arxitekturadan

foydalanishdir: foydalanuvchi nutqi avval lokal model yordamida qayta ishlanadi, so‘ng Internet
mavjud bo‘lsa, aniqlikni oshirish uchun serverdagi AI modeliga yuboriladi.

Nutqni matnga o‘tkazish texnologiyasi mobil dasturlarda foydalanuvchi va tizim

o‘rtasidagi aloqa samaradorligini oshiruvchi muhim innovatsion yechimdir. Ushbu
texnologiyaning rivojlanishi sun’iy intellekt, tabiiy tilni qayta ishlash va ovozli interfeyslarning
kelajakdagi istiqboli bilan chambarchas bog‘liq. O‘zbek tilida STT tizimlarini takomillashtirish
uchun maxsus ovozli korpuslar yaratish, mahalliy akustik modellarni o‘qitish va ochiq manbali
platformalar bilan integratsiya qilish zarur. Bu yo‘nalishda olib boriladigan izlanishlar raqamli
transformatsiya jarayonida muhim ahamiyat kasb etadi.


background image

2025

OKTABR

NEW RENAISSANCE

INTERNATIONAL SCIENTIFIC AND PRACTICAL CONFERENCE

VOLUME 2

|

ISSUE 10

187

Foydalanilgan adabiyotlar:

1.

Google Cloud. Speech-to-Text API Documentation. 2024. [elektron resurs]

2.

OpenAI. Whisper Model Overview. 2024. [elektron resurs]

3.

Jurafsky, D. & Martin, J. H. Speech and Language Processing. Pearson, 2023.

4.

Mozilla. DeepSpeech: Open Source Speech Recognition Engine. 2022. [elektron resurs]

5.

Baevski, A. et al. Wav2Vec 2.0: A Framework for Self-Supervised Speech Recognition.

Facebook AI, 2021.

6.

O‘zbekiston Respublikasi Raqamli texnologiyalar vazirligi. Sun’iy intellektni rivojlantirish

strategiyasi 2021–2030. Toshkent, 2021.

References

Google Cloud. Speech-to-Text API Documentation. 2024. [elektron resurs]

OpenAI. Whisper Model Overview. 2024. [elektron resurs]

Jurafsky, D. & Martin, J. H. Speech and Language Processing. Pearson, 2023.

Mozilla. DeepSpeech: Open Source Speech Recognition Engine. 2022. [elektron resurs]

Baevski, A. et al. Wav2Vec 2.0: A Framework for Self-Supervised Speech Recognition. Facebook AI, 2021.

O‘zbekiston Respublikasi Raqamli texnologiyalar vazirligi. Sun’iy intellektni rivojlantirish strategiyasi 2021–2030. Toshkent, 2021.