Dekabr, 2024-Yil
828
PARALLEL MATNLAR KORPUSI TARKIBI VA TUZILISHI
Nurullayeva Oydin Nazirjon qizi
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti
universiteti tayanch doktoranti
+998946458895
https://doi.org/10.5281/zenodo.14518981
Annotatsiya
. Ushbu maqolada parallel til korpuslari, ularning tarkibi va tuzilishi ilmiy va
amaliy tadqiqotlarda katta ahamiyatga ega ekanligi, turli tillardagi matnlarni qiyoslash va chuqur
tahlil qilish imkonini berishi haqida so‘z ketadi. Kelgusida ko‘p tilli korpuslarni rivojlantirish,
ayniqsa kam tillarda, ko‘p maqsadli tadqiqotlar va sun’iy intellekt tizimlarining sifatini
yaxshilashga xizmat qilshi haqida fikrlar bayon etilgan
.
Fikrlarni dalillash maqsadida misollar
keltirilgan.
Kalit so‘zlar:
korpus lingvistikasi, parallel matnlar korpusi, lingvistik teg, ekstralingvistik teg,
metaaxborot, annotatsiya.
Bugungi kunda jahondagi ijtimoiy-siyosiy, iqtisodiy va madaniy o‘zgarishlar tilda o‘z aksini
topmoqda. XIX asr oxiri XX asrning boshlarida kompyuter texnologiyalari rivojlanishi va internet
tarmog‘ining keng yoyilishi zamonaviy tilshunoslikning kompyuter lingvistikasi va korpus tilshunosligi
sohalarini paydo bo‘lishiga zamin yaratdi. Bugungi axborotlashgan jamiyatda har qanday til jamiyatda
saqlanib qolishi uchun sun'iy intellekt tiliga aylanishi lozim. Har qanday tilning sun’iy shaklini yaratish
korpus tilshunosligining muhim vazifasidir.
Kompyuter lingvistikasining xususiyatlari, ijtimoiy sohalardagi o'rni, lingvistik tadqiqotlardagi
ahamiyati ilmiy ishlarda yoritilgan. Keltirilgan ma'lumotlarga qo‘shimcha ravishda quyidagilarni alohida
ta'kidlash mumkin:
-
kompyuter lingvistikasi tilning lug'at fondini jamlash va tizimlashtirish imkonini yaratadi;
-
kompyuter lingvistikasi lingvistik masalalarni kompyuter orqali tahlil
qilishga, til imkoniyatlarini yoritishga, kompyuter-axborot uslubi yordamida aks ettirishga xizmat
qiladi;
-
kompyuter lingvistikasi korpus lingvistikasi, kompyuter leksikografiyasi
kabi yangi yo nalishlarning shakllanishiga zamin yaratadi;
-
kompyuter lingvistikasi lingvistik tadqiqotlarni mazmunan xilma-xil
material bilan ta'minlaydi, ma'lumotlarni jamlash, tizimlashtirish, qiyoslash, chog ishtirish
imkonini beradi;
-
lingvokulturologiya, lingvostatistika, qiyosiy tilshunoslik, chog'ishtirma
Dekabr, 2024-Yil
829
tilshunoslik masalalarini kompyuter vositasida hal qilish amaliy qiymatga ega bo'ldi. [1:40]
Korpus lingvistikasi komputer lingvistikasi yo'nalishi sifatida shakllanib, hozirgi kunda dunyo
ilmida mustaqil soha sifatida rivoj topmoqda. Korpus lingvistikasi korpuslarni yaratish texnologiyasi,
usullari hamda ma'lumotlar bazasini
shakllantirish bilan shug'ullanadi.
Korpuslar til imkoniyatlarini yorituvchi ma'lumotlar bazasidir. Korpus (kor-
pus) lotincha so'z bo'lib, «tana» degan ma'noni bildiradi. "Korpus so'z, so'z ma'nosi, so'z birikmasi,
grammatik shakllarni muayyan qidiruv tizimi orqali topishga asoslangan elektron ko'rinishdagi matnlar
jamlanmasidir".
Matnlar korpusi - elektron holda saqlanadigan ma'lumotlar bazasi bo‘lib, til materialini jamlash,
lingvistik muammolarni hal etish maqsadida yaratiladi. Korpuslar so‘zlar, so'zshakllari, yaxlit sintaktik
butunliklar, rasmiy, publitsistik (gazeta va jurnal) matnlardan tashkil topadi. Korpus qidiruv tizimiga
mo‘ljallangan
bo‘lib, kompyuter dasturlari asosida tizimlashtiriladi. Matnlar korpusiga oid ilmiy tadqiqotlar salmog'ining
ko'payishi natijasida tilshunoslikda korpus lingvistikasi yo'nalishi shakllandi.
Korpus lingvistikasi tilshunoslikning barcha yo'nalishlari uchun amaliy funksiya bajaradigan soha
sifatida natijalarning samaradorligini va asosliligini ta'minlaydi. Korpus (corpus) lotincha "tana", "jism",
"modda"; "bir butun narsa" tushunchalarini anglatuvchi so'z bo'lib, o'zbek tilida quyidagi ma'nolarda
qo'llanadi:
1. Mexanizm, apparat va sh.k. ning tayanch qismini yoki qobig'ini tashkil etuvchi butunlik. Soat
korpusi. Stanok korpusi.
2. Bir umumiy uchastkadagi, bir majmuaga kiruvchi binolardan biri, alohida bino. A korpus, V
korpus.
3. Bir necha diviziya yoki brigadadan iborat yirik harbiy qo'shilma.
4. Biror davlatdagi barcha diplomatlar, konsullar. Qonun chigaruvchi korpus. Qonun chiqaruvchi
ayrim muassasalarning yoki qonun chiqaruvchi organga tegishli palatalarning barcha deputatlari.
Keltirilgan izohlardan korpus terminida quyidagi semalar aks etganligini ko‘rish mumkin:
"butunlik", "umumiylik", "tayanch", "asos", "katta".
V.P.Zaxarov kompyuter lingvistikasi termini sifatida qo'llanadigan tushunchani quyidagicha
ta'riflagan: "Matnlarning lingvistik korpusi katta hajmli,
elektron ko'rinishda taqdim etilgan, birlashtirilgan, alohida olingan teglar tizimi, muayyan lingvistik
muammolarni hal qilish uchun mo'ljallangan til ma'lumotlarining jami". [4:36]
Korpus lingvistikasida parallel matnlar korpusi muhim ahamiyat kasb etadi. Parallel matnlar
korpusi badiiy asar, qo‘llanma, ommaviy axborot vositalari, turli xil hujjatlarning ikki yoki undan ko‘p
tillardagi elektron ko‘rinishlaridir. Parallel matnlar korpusi chog‘ishtirma aspektdagi tadqiqotlarda o‘ziga
xos o‘rin tutadi. Parallel korpuslar yordamida bir so‘z, jumla, abzats, supersintaktik butunliklarning turli
Dekabr, 2024-Yil
830
tillardagi variantlarini bilish mumkin. Parallel korpuslar – madaniyatlararo muloqot keng yoyilgan hozirgi
davr uchun muhim bo‘lgan ma’lumotlar bazasi. Parallel korpuslar orqali turli til muhitidagi,
madaniyatlaridagi universaliyalar hamda tillarning o‘ziga xos mental xususiyatlari, realiya va lakunar
birliklarni aniqlash mumkin bo‘ladi. Parallel matnlar korpusi avtomatik tarjima rivoji uchun ham xizmat
qiladi, kompyuter leksikografiyasining taraqqiyotini ta’minlaydi. Parallel matnlar korpusi yordamida
maxsus konkordanser dasturlar ishlab chiqiladi va turli xil ixtisoslik lug‘atlari tuzish imkoniyati yuzaga
keladi.
“Parallel matnlar korpusi ilmiy va amaliy maqsadlarda (shu jumladan, xorijiy tillarni o‘qitish
maqsadida) amalga oshirilmoqda. Parallel matnlar strukturasiga ko‘ra manba tildan maqsad tilga tarjima
matnlardan iborat. Masalan, «Alie in Wonderland» ingliz matni va uning nemis, fransuz, rus tillaridagi
tarjimasi parallel matnlarni yaratishga asos bo‘ladi [2:68]”.
Parallel matnlar korpusining shakllanishi tilning nufuzini oshirish, mavqeini mustahkamlashga
xizmat qiladi. Avvalo, parallel matnlar korpusi ma’lumotlar bazasi sifatida kommunikativ funksiya
bajaradi. Bir tildagi matnning boshqa tildagi tarjimasi madaniyatlararo munosabatlarni aniqlashga, farqlarni
ko‘rsatishga yo‘naltiriladi. Leksik birliklarni boshqa tillardagi tarjima variantlari orqali semantik tahlil
qilishga imkoniyat yaratiladi. Axborot uzatishning turli tillardagi umumiy va spetsifik xususiyatlarini
aniqlash imkoni yuzaga keladi.
Parallel til korpuslari tarjimashunoslik, tilshunoslik, va kompyuter lingvistikasi sohalarida keng
qo‘llaniladigan muhim vositalardan biridir. Ushbu korpuslar turli tillardagi matnlarning o‘zaro
muvofiqligini saqlab, bir matnni bir nechta tillarda qiyoslash imkonini beradi. Bu maqolada parallel til
korpuslarining tarkibi va tuzilishi, ularning turli tillardagi matnlarni qanday tartibga solishi va ilmiy-
tadqiqot ishlarida qanday ahamiyatga ega ekanligi muhokama qilinadi. Bunday korpuslar, ayniqsa,
mashinaviy tarjima tizimlarini rivojlantirish, terminologik izlanishlar va ko‘p tilli tadqiqotlar uchun
muhimdir.
Ushbu tadqiqotda parallel til korpuslarining umumiy xususiyatlari tahlil qilindi, ular tarkibi va
tuzilishi turli omillar asosida o‘rganildi. Manba sifatida xalqaro miqyosda tan olingan bir nechta parallel
korpuslardan foydalangan holda, ularning tuzilmasi va segmentatsiya tamoyillari o‘rganildi. Tahlil qilingan
korpuslar ichida EUROPARL (Evropa Parlamentining parallel korpusi), OPUS (Open Subtitles kabi ochiq
korpuslar) va United Nations Corpus (BMT matnlarining ko‘p tilli korpusi) mavjud. Ushbu korpuslarning
tuzilishi va tarkibiy qismlari har bir til juftligi uchun alohida segmentlar va segmentatsiya usullari bilan
bog‘liq ravishda o‘rganildi.
Parallel til korpuslarining asosiy tarkibiy qismlari quyidagilardan iborat:
1. Matn turi va janrlari: Korpuslar turli janrdagi matnlar (badiiy, huquqiy, texnik va boshqalar)
bilan boyitilgan. Har bir janr terminologiyasi va uslubi turlicha bo‘lgani sababli, korpusda bitta matnning
turli tarjimalari mavjud bo‘ladi.
Dekabr, 2024-Yil
831
2. Tillar juftligi: Korpuslarda ishlatiladigan tillar juftligi tahlil qilindi. Ko‘p hollarda keng
tarqalgan tillar, masalan, inglizcha, ispancha va fransuzcha manba tillar sifatida ko‘rilgan bo‘lsa, kam
tarqalgan tillar uchun esa sifatli parallel tarjimalar cheklangan bo‘lib chiqdi.
3. Metama’lumotlar: Parallel til korpuslari ko‘pincha qo‘shimcha ma’lumotlar bilan ta’minlanadi.
Ushbu metama’lumotlar matnning manbasi, tarjima qilingan sanasi va tarjimon haqida ma’lumotlarni o‘z
ichiga oladi. Bu metama’lumotlar tahlili korpuslardan samarali foydalanishga imkon beradi. [1:32]
Tahlil natijalariga ko‘ra, parallel til korpuslari yuqori sifatli tarjimalar va matnlarni qiyoslash uchun
muhim vosita hisoblanadi. Ushbu korpuslar tarjima sifatini oshirishga, mashinaviy tarjima tizimlarini
rivojlantirishga, shuningdek, til o‘rganish jarayonlarini soddalashtirishga yordam beradi. Biroq, kam
tarqalgan tillar uchun parallel korpuslarni yaratish hali ham muhim masalalardan biri hisoblanadi, chunki
bunday tillar uchun sifatli matnlar va tarjimalar yetarli emas.
Shuningdek, matn segmentatsiyasi va tillar o‘rtasidagi semantik ekvivalentlik muammolari ko‘p
tilli korpuslarni yaratish jarayonida dolzarb bo‘lib qolmoqda. Kelajakda ushbu muammolarni bartaraf etish
uchun ko‘proq sifatli tarjima resurslarini jalb qilish va segmentatsiya algoritmlarini yanada
takomillashtirish lozim.
Parallel til korpuslari tarjima va tilshunoslik sohasida keng imkoniyatlar yaratadi. Ushbu
korpuslarning tarkibi va tuzilishi ilmiy va amaliy tadqiqotlarda katta ahamiyatga ega bo‘lib, turli tillardagi
matnlarni qiyoslash va chuqur tahlil qilish imkonini beradi. Kelgusida ko‘p tilli korpuslarni rivojlantirish,
ayniqsa kam tillarda, ko‘p maqsadli tadqiqotlar va sun’iy intellekt tizimlarining sifatini yaxshilashga xizmat
qiladi.
REFERENCES
1.
Каримов Р. Ўзбек-инглиз параллел корпусини тузишнинг лингвистик ва дастурий
масалалари. Филол. фан. Бўйича фалсафа докт. (PhD) диссертацияси. – Бухоро, 2022
2.
Хамроева Ш. Ўзбек тили муаллифлик корпусининг тузишнинг лингвистик асослари: Филол.
фан. Бўйича фалсафа докт. (PhD) диссертацияси. – Бухоро, 2018. – Б. 72-73.
3.
Холбеков М. Ўзбекистонда таржима ва таржимашунослик (1991-2016 йиллар) // Хорижий
филология. – 2016 йил. – №3. – Б. 16-42.
4.
Захаров В.П., Богданова С.Ю. Корпусная лингвистика. –Иркутск: ИГЛУ, 2011. – Б.36.