Authors

  • Oydin Nurullayeva

DOI:

https://doi.org/10.71337/inlibrary.uz.science-research.57958

Abstract

Ushbu maqolada parallel til korpuslari, ularning tarkibi va tuzilishi ilmiy va amaliy tadqiqotlarda katta ahamiyatga ega ekanligi, turli tillardagi matnlarni qiyoslash va chuqur tahlil qilish imkonini berishi haqida so‘z ketadi. Kelgusida ko‘p tilli korpuslarni rivojlantirish, ayniqsa kam tillarda, ko‘p maqsadli tadqiqotlar va sun’iy intellekt tizimlarining sifatini yaxshilashga xizmat qilshi haqida fikrlar bayon etilgan. Fikrlarni dalillash maqsadida misollar keltirilgan.

background image


Dekabr, 2024-Yil

828

PARALLEL MATNLAR KORPUSI TARKIBI VA TUZILISHI

Nurullayeva Oydin Nazirjon qizi

Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti

universiteti tayanch doktoranti

nurullayeva1995@icloud.com

+998946458895

https://doi.org/10.5281/zenodo.14518981

Annotatsiya

. Ushbu maqolada parallel til korpuslari, ularning tarkibi va tuzilishi ilmiy va

amaliy tadqiqotlarda katta ahamiyatga ega ekanligi, turli tillardagi matnlarni qiyoslash va chuqur

tahlil qilish imkonini berishi haqida so‘z ketadi. Kelgusida ko‘p tilli korpuslarni rivojlantirish,

ayniqsa kam tillarda, ko‘p maqsadli tadqiqotlar va sun’iy intellekt tizimlarining sifatini

yaxshilashga xizmat qilshi haqida fikrlar bayon etilgan

.

Fikrlarni dalillash maqsadida misollar

keltirilgan.

Kalit so‘zlar:

korpus lingvistikasi, parallel matnlar korpusi, lingvistik teg, ekstralingvistik teg,

metaaxborot, annotatsiya.

Bugungi kunda jahondagi ijtimoiy-siyosiy, iqtisodiy va madaniy o‘zgarishlar tilda o‘z aksini

topmoqda. XIX asr oxiri XX asrning boshlarida kompyuter texnologiyalari rivojlanishi va internet

tarmog‘ining keng yoyilishi zamonaviy tilshunoslikning kompyuter lingvistikasi va korpus tilshunosligi

sohalarini paydo bo‘lishiga zamin yaratdi. Bugungi axborotlashgan jamiyatda har qanday til jamiyatda

saqlanib qolishi uchun sun'iy intellekt tiliga aylanishi lozim. Har qanday tilning sun’iy shaklini yaratish

korpus tilshunosligining muhim vazifasidir.

Kompyuter lingvistikasining xususiyatlari, ijtimoiy sohalardagi o'rni, lingvistik tadqiqotlardagi

ahamiyati ilmiy ishlarda yoritilgan. Keltirilgan ma'lumotlarga qo‘shimcha ravishda quyidagilarni alohida

ta'kidlash mumkin:

-

kompyuter lingvistikasi tilning lug'at fondini jamlash va tizimlashtirish imkonini yaratadi;

-

kompyuter lingvistikasi lingvistik masalalarni kompyuter orqali tahlil

qilishga, til imkoniyatlarini yoritishga, kompyuter-axborot uslubi yordamida aks ettirishga xizmat

qiladi;

-

kompyuter lingvistikasi korpus lingvistikasi, kompyuter leksikografiyasi

kabi yangi yo nalishlarning shakllanishiga zamin yaratadi;

-

kompyuter lingvistikasi lingvistik tadqiqotlarni mazmunan xilma-xil

material bilan ta'minlaydi, ma'lumotlarni jamlash, tizimlashtirish, qiyoslash, chog ishtirish

imkonini beradi;

-

lingvokulturologiya, lingvostatistika, qiyosiy tilshunoslik, chog'ishtirma


background image


Dekabr, 2024-Yil

829

tilshunoslik masalalarini kompyuter vositasida hal qilish amaliy qiymatga ega bo'ldi. [1:40]

Korpus lingvistikasi komputer lingvistikasi yo'nalishi sifatida shakllanib, hozirgi kunda dunyo

ilmida mustaqil soha sifatida rivoj topmoqda. Korpus lingvistikasi korpuslarni yaratish texnologiyasi,

usullari hamda ma'lumotlar bazasini

shakllantirish bilan shug'ullanadi.

Korpuslar til imkoniyatlarini yorituvchi ma'lumotlar bazasidir. Korpus (kor-

pus) lotincha so'z bo'lib, «tana» degan ma'noni bildiradi. "Korpus so'z, so'z ma'nosi, so'z birikmasi,

grammatik shakllarni muayyan qidiruv tizimi orqali topishga asoslangan elektron ko'rinishdagi matnlar

jamlanmasidir".

Matnlar korpusi - elektron holda saqlanadigan ma'lumotlar bazasi bo‘lib, til materialini jamlash,

lingvistik muammolarni hal etish maqsadida yaratiladi. Korpuslar so‘zlar, so'zshakllari, yaxlit sintaktik

butunliklar, rasmiy, publitsistik (gazeta va jurnal) matnlardan tashkil topadi. Korpus qidiruv tizimiga

mo‘ljallangan

bo‘lib, kompyuter dasturlari asosida tizimlashtiriladi. Matnlar korpusiga oid ilmiy tadqiqotlar salmog'ining

ko'payishi natijasida tilshunoslikda korpus lingvistikasi yo'nalishi shakllandi.

Korpus lingvistikasi tilshunoslikning barcha yo'nalishlari uchun amaliy funksiya bajaradigan soha

sifatida natijalarning samaradorligini va asosliligini ta'minlaydi. Korpus (corpus) lotincha "tana", "jism",

"modda"; "bir butun narsa" tushunchalarini anglatuvchi so'z bo'lib, o'zbek tilida quyidagi ma'nolarda

qo'llanadi:

1. Mexanizm, apparat va sh.k. ning tayanch qismini yoki qobig'ini tashkil etuvchi butunlik. Soat

korpusi. Stanok korpusi.

2. Bir umumiy uchastkadagi, bir majmuaga kiruvchi binolardan biri, alohida bino. A korpus, V

korpus.

3. Bir necha diviziya yoki brigadadan iborat yirik harbiy qo'shilma.

4. Biror davlatdagi barcha diplomatlar, konsullar. Qonun chigaruvchi korpus. Qonun chiqaruvchi

ayrim muassasalarning yoki qonun chiqaruvchi organga tegishli palatalarning barcha deputatlari.

Keltirilgan izohlardan korpus terminida quyidagi semalar aks etganligini ko‘rish mumkin:

"butunlik", "umumiylik", "tayanch", "asos", "katta".

V.P.Zaxarov kompyuter lingvistikasi termini sifatida qo'llanadigan tushunchani quyidagicha

ta'riflagan: "Matnlarning lingvistik korpusi katta hajmli,

elektron ko'rinishda taqdim etilgan, birlashtirilgan, alohida olingan teglar tizimi, muayyan lingvistik

muammolarni hal qilish uchun mo'ljallangan til ma'lumotlarining jami". [4:36]

Korpus lingvistikasida parallel matnlar korpusi muhim ahamiyat kasb etadi. Parallel matnlar

korpusi badiiy asar, qo‘llanma, ommaviy axborot vositalari, turli xil hujjatlarning ikki yoki undan ko‘p

tillardagi elektron ko‘rinishlaridir. Parallel matnlar korpusi chog‘ishtirma aspektdagi tadqiqotlarda o‘ziga

xos o‘rin tutadi. Parallel korpuslar yordamida bir so‘z, jumla, abzats, supersintaktik butunliklarning turli


background image


Dekabr, 2024-Yil

830

tillardagi variantlarini bilish mumkin. Parallel korpuslar – madaniyatlararo muloqot keng yoyilgan hozirgi

davr uchun muhim bo‘lgan ma’lumotlar bazasi. Parallel korpuslar orqali turli til muhitidagi,

madaniyatlaridagi universaliyalar hamda tillarning o‘ziga xos mental xususiyatlari, realiya va lakunar

birliklarni aniqlash mumkin bo‘ladi. Parallel matnlar korpusi avtomatik tarjima rivoji uchun ham xizmat

qiladi, kompyuter leksikografiyasining taraqqiyotini ta’minlaydi. Parallel matnlar korpusi yordamida

maxsus konkordanser dasturlar ishlab chiqiladi va turli xil ixtisoslik lug‘atlari tuzish imkoniyati yuzaga

keladi.

“Parallel matnlar korpusi ilmiy va amaliy maqsadlarda (shu jumladan, xorijiy tillarni o‘qitish

maqsadida) amalga oshirilmoqda. Parallel matnlar strukturasiga ko‘ra manba tildan maqsad tilga tarjima

matnlardan iborat. Masalan, «Alie in Wonderland» ingliz matni va uning nemis, fransuz, rus tillaridagi

tarjimasi parallel matnlarni yaratishga asos bo‘ladi [2:68]”.

Parallel matnlar korpusining shakllanishi tilning nufuzini oshirish, mavqeini mustahkamlashga

xizmat qiladi. Avvalo, parallel matnlar korpusi ma’lumotlar bazasi sifatida kommunikativ funksiya

bajaradi. Bir tildagi matnning boshqa tildagi tarjimasi madaniyatlararo munosabatlarni aniqlashga, farqlarni

ko‘rsatishga yo‘naltiriladi. Leksik birliklarni boshqa tillardagi tarjima variantlari orqali semantik tahlil

qilishga imkoniyat yaratiladi. Axborot uzatishning turli tillardagi umumiy va spetsifik xususiyatlarini

aniqlash imkoni yuzaga keladi.

Parallel til korpuslari tarjimashunoslik, tilshunoslik, va kompyuter lingvistikasi sohalarida keng

qo‘llaniladigan muhim vositalardan biridir. Ushbu korpuslar turli tillardagi matnlarning o‘zaro

muvofiqligini saqlab, bir matnni bir nechta tillarda qiyoslash imkonini beradi. Bu maqolada parallel til

korpuslarining tarkibi va tuzilishi, ularning turli tillardagi matnlarni qanday tartibga solishi va ilmiy-

tadqiqot ishlarida qanday ahamiyatga ega ekanligi muhokama qilinadi. Bunday korpuslar, ayniqsa,

mashinaviy tarjima tizimlarini rivojlantirish, terminologik izlanishlar va ko‘p tilli tadqiqotlar uchun

muhimdir.

Ushbu tadqiqotda parallel til korpuslarining umumiy xususiyatlari tahlil qilindi, ular tarkibi va

tuzilishi turli omillar asosida o‘rganildi. Manba sifatida xalqaro miqyosda tan olingan bir nechta parallel

korpuslardan foydalangan holda, ularning tuzilmasi va segmentatsiya tamoyillari o‘rganildi. Tahlil qilingan

korpuslar ichida EUROPARL (Evropa Parlamentining parallel korpusi), OPUS (Open Subtitles kabi ochiq

korpuslar) va United Nations Corpus (BMT matnlarining ko‘p tilli korpusi) mavjud. Ushbu korpuslarning

tuzilishi va tarkibiy qismlari har bir til juftligi uchun alohida segmentlar va segmentatsiya usullari bilan

bog‘liq ravishda o‘rganildi.

Parallel til korpuslarining asosiy tarkibiy qismlari quyidagilardan iborat:

1. Matn turi va janrlari: Korpuslar turli janrdagi matnlar (badiiy, huquqiy, texnik va boshqalar)

bilan boyitilgan. Har bir janr terminologiyasi va uslubi turlicha bo‘lgani sababli, korpusda bitta matnning

turli tarjimalari mavjud bo‘ladi.


background image


Dekabr, 2024-Yil

831

2. Tillar juftligi: Korpuslarda ishlatiladigan tillar juftligi tahlil qilindi. Ko‘p hollarda keng

tarqalgan tillar, masalan, inglizcha, ispancha va fransuzcha manba tillar sifatida ko‘rilgan bo‘lsa, kam

tarqalgan tillar uchun esa sifatli parallel tarjimalar cheklangan bo‘lib chiqdi.

3. Metama’lumotlar: Parallel til korpuslari ko‘pincha qo‘shimcha ma’lumotlar bilan ta’minlanadi.

Ushbu metama’lumotlar matnning manbasi, tarjima qilingan sanasi va tarjimon haqida ma’lumotlarni o‘z

ichiga oladi. Bu metama’lumotlar tahlili korpuslardan samarali foydalanishga imkon beradi. [1:32]

Tahlil natijalariga ko‘ra, parallel til korpuslari yuqori sifatli tarjimalar va matnlarni qiyoslash uchun

muhim vosita hisoblanadi. Ushbu korpuslar tarjima sifatini oshirishga, mashinaviy tarjima tizimlarini

rivojlantirishga, shuningdek, til o‘rganish jarayonlarini soddalashtirishga yordam beradi. Biroq, kam

tarqalgan tillar uchun parallel korpuslarni yaratish hali ham muhim masalalardan biri hisoblanadi, chunki

bunday tillar uchun sifatli matnlar va tarjimalar yetarli emas.

Shuningdek, matn segmentatsiyasi va tillar o‘rtasidagi semantik ekvivalentlik muammolari ko‘p

tilli korpuslarni yaratish jarayonida dolzarb bo‘lib qolmoqda. Kelajakda ushbu muammolarni bartaraf etish

uchun ko‘proq sifatli tarjima resurslarini jalb qilish va segmentatsiya algoritmlarini yanada

takomillashtirish lozim.

Parallel til korpuslari tarjima va tilshunoslik sohasida keng imkoniyatlar yaratadi. Ushbu

korpuslarning tarkibi va tuzilishi ilmiy va amaliy tadqiqotlarda katta ahamiyatga ega bo‘lib, turli tillardagi

matnlarni qiyoslash va chuqur tahlil qilish imkonini beradi. Kelgusida ko‘p tilli korpuslarni rivojlantirish,

ayniqsa kam tillarda, ko‘p maqsadli tadqiqotlar va sun’iy intellekt tizimlarining sifatini yaxshilashga xizmat

qiladi.

REFERENCES

1.

Каримов Р. Ўзбек-инглиз параллел корпусини тузишнинг лингвистик ва дастурий

масалалари. Филол. фан. Бўйича фалсафа докт. (PhD) диссертацияси. – Бухоро, 2022

2.

Хамроева Ш. Ўзбек тили муаллифлик корпусининг тузишнинг лингвистик асослари: Филол.

фан. Бўйича фалсафа докт. (PhD) диссертацияси. – Бухоро, 2018. – Б. 72-73.

3.

Холбеков М. Ўзбекистонда таржима ва таржимашунослик (1991-2016 йиллар) // Хорижий

филология. – 2016 йил. – №3. – Б. 16-42.

4.

Захаров В.П., Богданова С.Ю. Корпусная лингвистика. –Иркутск: ИГЛУ, 2011. – Б.36.