KORPUS BIRLIKLARINI TEGLASH VA ANNOTATSIYALASH MASALASI

Manzura Abjalova

doi:10.71337/inlibrary.uz.science-research.26014

Authors

Manzura Abjalova
Toshkent davlat oʻzbek tili va adabiyoti universiteti dotsenti

DOI:

https://doi.org/10.71337/inlibrary.uz.science-research.26014

Keywords:

tag, annotation, linguistic comment, Corpus, metadata.

Abstract

One of the characteristics that distinguishes linguistic corpora from text systems, such as an archive of texts, a system of electronic encyclopedias and dictionaries, an electronic library, is a linguistic annotation or tag. Tagging of corpus units provides a number of convenient features. This will be discussed in the article.

227

KORPUS BIRLIKLARINI TEGLASH VA ANNOTATSIYALASH MASALASI

Manzura Abjalova

Filologiya fanlari doktori (DSc), dotsent

Toshkent davlat oʻzbek tili va adabiyoti universiteti dotsenti, f.f.d. (DSc)

E-mail:

abjalova.manzura@gmail.com

ORCID:

0000-0002-1927-2669

https://doi.org/10.5281/zenodo.10206008

Annotatsiya.

Lingvistik korpuslarni matnlar arxivi, elektron ensiklopediya va lug‘atlar

tizimi, elektron kutubxona kabi matnli tizimlardan farqlaydigan xususiyatlardan biri – lingvistik

izoh yoxud teg hisoblanadi. Korpus birlikilarini teglash

natijasida bir qancha qulay imkoniyatlar

yuzaga keltiriladi. Maqolada shu haqda so‘z boradi.

Kalit so‘zlar:

teg, annotatsiya, lingvistik izoh, korpus, metama’lumot.

TASK OF TAGGING AND ANNOTATION OF CORPUS UNITS

Abstract.

One of the characteristics that distinguishes linguistic corpora from text systems,

such as an archive of texts, a system of electronic encyclopedias and dictionaries, an electronic

library, is a linguistic annotation or tag. Tagging of corpus units provides a number of convenient

features. This will be discussed in the article.

Keywords:

tag, annotation, linguistic comment, Corpus, metadata.

ПРОБЛЕМА МАРКИРОВКИ И АННОТИРОВАНИЯ ПОДРАЗДЕЛЕНИЙ

КОРПУСА

Аннотация.

Одной из особенностей, отличающих лингвистические корпуса от

текстовых систем, таких как архив текстов, система электронных энциклопедий и

словарей, электронная библиотека, является лингвистическая аннотация или тег.

Маркировка корпусных единиц дает ряд удобных возможностей. Об этом и пойдет речь в

статье.

Ключевые слова:

тег, аннотация, лингвистическая аннотация, тело, метаданные.

Turli lingvistik topshiriq / amalni bajarish uchun matnga lingvistik va ekstralingvistik

qo‘shimcha ma’lumot bilan ishlov berilgan bo‘lishi lozim. Buning uchun mavjud matnning

komponentlariga maxsus izoh (masalan, so‘z turkumi haqida ma’lumot) berilishi zarur

hisoblanadi. Bu izoh matn

annotatsiyasi,

maxsus lingvistik belgilar esa

teg

(belgi, ishora) (rus.

razmetka

, ing.

tag

) deb ataladi. Matn birliklarini izohlash esa

annotatsiyalash

yoki

lingvistik

izohlash

(

annotation

)

,

har bir lingvistik birlikni ramzlash esa

teglash

(

разметка, tagging, mark-

228

up)

deyiladi. Masalan, ot turkumi “Ot” yoki “N”, sifat turkumi “Sif” yoki “Adj”, fe’l turkumi “F”

yoki “V” tarzida teglanadi. Matnda esa ot turkumiga tegishli “

kitobim

” so‘zshakli “

Ot, n-b nom.,

birl., I sh., b. eg.q

.” kabi annotatsiyalanadi, ya’ni lingvistik izohlanadi. Teglash va

annotatsiyalashning eng oddiy misoli – so‘z turkumlarini umumiy ramzlash va umumiy izohlash

hisoblanadi. Bu shunday ko‘rinishi mumkin:

Samiya xalqaro tanlovga

yaqinda boradi

Izohlaymiz:

Samiya

(ot)

xalqaro

(sifat)

tanlovga

(ot)

yaqinda

(ravish)

boradi

(fe’l)

.

Men o‘g‘lim bilan faxrlanaman.

Izohlaymiz:

Men

(olmosh)

o‘g‘lim

(ot)

bilan

(ko‘makchi)

faxrlanaman

(fe’l)

.

Tarixga nazar.

80-yillarda SGML1 (Standard Generalized Markup Language) deb

nomlangan elektron matnlarni belgilash standarti qabul qilingan. U tipografiya sanoatida ishlab

chiqilgan, ammo tez fursatda boshqa sohalarga tarqaldi. SGMLning maqsadi shundaki, turli matn

protsessorlarida yozilgan hujjatlarni tahrirlash, tahlil qilish va ularning istalgancha o‘zgartirish

mumkin bo‘ladi.

SGML teglar tushunchasini kiritdi. Teglar (ing. tags) – bu matndagi xizmat belgilari,

matnning o‘zi haqidagi ma’lumotni o‘z ichiga oladi. Har bir holat maxsus teglarni belgilash va shu

bilan SGML tilining dialektlarini yaratishish mumkin. SGML belgilash tili – tillarning

“konstruktori”. U juda murakkab til sanaladi va juda kam ishlatiladi. Ammo uning asosida HTML

va XML kabi taniqli belgilash tillari yaratildi.

Matnli ma’lumotlarni (korpuslarni) teglash uchun bir necha universitetlar matnlarning

qaysi parametrlarini teglash kerakligini tavsiflovchi tizimni maxsus ishlab chiqdi. Ushbu tizim

XMLdan foydalanadi va

Text Encoding Initiative Guidelines

(

TEI Guidelines

)

1

deb nomlanadi.

Bu kodlash, teglash va indeksirlash mumkin bo‘lgan matnlarning turli xil xususiyatlarining

ro‘yxati hisoblanadi. Masalan, tizim matndagi turli xil tuzatishlar, iqtiboslar, qisqrtmalar, atoqli

otlar, initsial, akronimlar, chet el so‘zlari va boshqalarni sanab o‘tadi. Hozirgi vaqtda korpuslarni

yaratish bo‘yicha deyarli barcha loyihalar (shu jumladan, Britaniya Milliy korpusi) TEI

tavsiyalariga u yoki bu tarzda amal qilishga harakat qilmoqda [

Кутузов А.Б.]

.

1

http://www.teic.org/Guidelines/index.xml

.

229

An’anaga muvofiq teglar burchakli qavslarda juft, ya’ni ochish va yopish holatida bo‘ladi.

Masalan, <a> ochuvchi teg, </a> yopuvchi teg. Yopish tegi ochish tegida berilgan xabarning

tugaganligini bildiradi. Fikrga yuqoridagi gap bilan misol keltiramiz:

<pron>

Men

</pron></N>

o‘g‘lim

<N><prep>

bilan

</prep> <V>

faxrlanaman

</V>.

Ayon bo‘lganidek, gap boshidagi LB

<pron>

Men

</pron>

olmoshi ekanligi haqida belgi

berilgan.

Yoki yana

<ds>

Samimiyatni o‘zingizga bezak qilib oling

</ds>

– deydilar onajonim.

Ushbu gapdagi “

Samimiyatni o‘zingizga bezak qilib oling

” qismi

<ds>

va

</ds>

teglarida

berilgan, bu teg ko‘chirma gap (direct speech – ds)ni anglatadi.

Og‘zaki nutq korpuslarida

<pause>

tegi toq holda qo‘llanilishi mumkin. Uning ochuvchi

yoki yopuvchi ekanligi ahamiyatsiz bo‘ladi. Bu teg qo‘yilgan o‘rinda to‘xtam bo‘lganligini

anglatadi.

Teglar qisqa belgi yoki ramzlardan iborat bo‘ladi. Masalan,

sifat – sif, fe’l – f, noun – N,

verb – v

tarzida. Teglar foydalanuvchiga ko‘rinmaydi. matnni Annotatsiyalangan ko‘rsatadigan

dastur teglarni o‘ziga xos qoidalarga muvofiq izohlaydi va foydalanuvchiga shu qoidalarga

muvofiq shakllantirilgan matnni taqdim etadi.

Avtomatik annotatsiyalash / teglash.

Katta hajmli korpuslarni teglash ko‘p vaqt va

mablag‘ni talab qiladi. Shu bois XX arsning 70-yillarida annotatsiyalashni kompyuter orqali qilish

loyihalari paydo bo‘la boshladi. Shunda TAGGIT dasturi Braun korpusining 77 % so‘zining

turkumlarini teglagan. Qolgan 23 % esa o‘n yil davomida qo‘lda teglangan. 80-yillarda CLAWS

(Constituent Likelihood Automatic Word-tagging System) tizimining teglash ko‘rsatkichi 95 %ga

chiqdi. Unda ehtimollik nazariyasi tatbiq qilingan. Bu haqda quyida ma’lumot berildi. Bugungi

kunda asosiy Yevropa tillarining so‘z turkumlarini avtomatik teglash (morfologik tahlil, word-

class tagging) va gap bo‘laklarini avtomatik teglash (sintaktik tahlil, parsing) tizimlari ishlab

chiqilgan. Bu imkoniyatlar Internet qidiruvi vs mashina tarjimasida ham zarur sanaladi.

Shuningdek, “Matnlarni avtomatik qayta ishlash” (

http://www.aot.ru

) nomi bilan rus tilini

kompyuter texnologiyalari yordamida qayta ishlash imkoniyatlari yaratildi. Rossiya davlat

gumanitar universiteti Lingvistika fakultetining bir guruh mutaxassislari ushbu tizimda rus, nemis

va ingliz tillari uchun

–

grafematik (so‘zlarning chegarasini aniqlashtirish);

–

morfologik (so‘z turkumlarini aniqlash);

–

sintaktik (gap bo‘laklarini belgilash);

230

–

semantik (so‘zlardagi semantik munosabatni aniqlash) modular ishlab chiqilgan

[Abjalova, 2020].

Umuman, matnlarni teglashning ikki turi mavjud:

metama’lumot

yozish va

lingvistik

izoh

, ya’ni belgi biriktirish.

1.

Metama’lumot

(

metadata, metaizoh, metalingvistik ma’lumot, ekstralingvistik

ma’lumot

) korpusga kiritilgan manba nomi, muallifi, yaratilgan vaqti, voqea joyi, uslubi, janri,

shoir yashagan davr tilshunosligi nuqtayi nazaridan (tilning ma’lum davrga xosligi) ilmiy

yondashishni: shoirning badiiy so‘z qo‘llash uslubi va mahorati (xalq og‘zaki ijodi namunalari:

maqol, matal, topishmoq, turli qochirimlar, hikmatli so‘zlar, iboralar)ni chuqur o‘rganish, janrning

ijtimoiy-tarbiyaviy ahamiyatini yoritish, janrlarni tahlil qilish jarayonida mazmunan qaysi

auditoriya yoshiga mosligini aniqlash mumkin.

2.

Lingvisti izoh (maxsus lingvistik belgi)

da matndagi leksik birliklar lingvistik

xususiyatlariga ko‘ra belgilanadi: so‘zshaklning grammatik ma’nosi – soʻzning turkumi va shu

turkumga tegishli grammatik kategoriyalari (feʼl, ot, sifatlar va boshqalar), semantik

xususiyatlariga xos belgilari, arxaizm, istorizm so‘zlar haqidagi maʼlumotlar

teglar (ramziy

belgilar)

koʻrinishida korpusga kiritililadi, natijada korpusning ta’limiy va tadqiqiy ahamiyati

oshadi, foydalanuvchilarga korpusda maxsus qidiruvni ham bajarish imkonini beradi.

Lingvistik izohlash tiplari:

1)

morfologik

(part-of-speech tagging yoki POS-tagging) – so‘z turkumlarini teglash.

Masalan, ot – Ot (N), fe’l – F (V), sifat – Sif (Adj) tarzida;

2)

sintaktik tahlil yoki parsing

– leksik birliklar va turli sintaktik tuzilmalar orasidagi

sintaktik munosabatlarni tavsiflash;

3)

semantik

– berilgan so‘z yoki ibora tegishli bo‘lgan semantik toifalarga va uning

ma’nosini aniqlaydigan kichikroq toifalarga ko‘ra tavsiflash;

4)

anaforik

– referent aloqalarini, masalan, olmoshlar bilan bog‘lanishni izohlash;

5)

prosodik

– urg‘u va intonatsiyani tavsiflaydigan teglardan foydalanadi;

6)

diskurs

– og‘zaki nutq korpusida pauza, takrorlash, eslatma va hokazolarni ko‘rsatish

uchun matn maxsus izohlanadi;

7)

stilistik

– leksik birlikning uslubiy xoslanishini ko‘rsatadi.

Ushbu lingvistik izohlarni amalga oshirishda quyidagi asosiy printsiplarga rioya qilish

maqsadga muvofiq:



Nazariy jihatdan neytral (an’anaviy) izohlash sxemasi – har bir korpusga o‘ziga xos

izohlash sxemalari, ya’ni elementlaridan foydalanib, chigalliklarni yuzaga keltirgandan ko‘ra,

231

yirik lingvistik korpuslarni teglash spetsifikasidagi elementlarni umumfoydalanish uchun asos

qilib olinishi o‘zbek tili korpuslarining jahon talabidagi zamonaviy korpus deya e’tirof etilishiga

asos bo‘ladi va o‘z o‘rnida bunday korpus standart korpus vazifasini o‘taydi. Modomiki

ko‘pchilikka ma’lum izohlash sxemasidan foydalanilmasdan mualliflik nazariyasi yaratib olinsa,

korpusdan foydalanuvchi izohlash tizimini chuqurroq urganib chiqishga majbur bo‘ladi. Tabiiyki,

bunday ortiqcha izlanish foydalanuvchiga ma’qul kelmaydi.



Lingvistik tushunchalarning umumiy qabul qilingan tizimi – lingvistik korpuslarning

dunyo miqyosida ahamiyatga ega bo‘lishi uchun teglar xalqaro belgi va ramzlardan foydalanish

o‘rinli bo‘ladi. Bu, asosan, lingvodidaktikada ahamiyatli hisoblanib, til o‘rganish va o‘rgatish

jarayonini yanada qulaylashtiradi.



Parametrlarni samarali kiritish – juda katta miqdordagi lingvistik birliklarni to‘g‘ri

teglashda inson omili va yarim avtomat jarayoni ishonchli hisoblanadi. Buning uchun fidoyi

mutaxassislar jamoasining sermahsul mehnati talab qilinadi.



Xalqaro standartlarga rioya qilish – teglashning TEI xalqaro standartiga rioya etish

ulkan tajribaga tayanish hisoblanadi.

Quyida lingvistik izohlashning morfologik turiga kengroq to‘xtalamiz.

Morxologik belgilash

ning asosiy birligi – bu belgilar zanjiri sifatida tushuniladigan va

odatda, oddiy so‘zshaklga teng bo‘lgan matniy shakl yoki

token

. Bunday ramziy holat kompyuter

dasturining ishi uchun zarur hisoblanadi. Matndagi tokenlarni alohidalash jarayoni

tokenizatsiya

deyiladi. Ayrim adabiyotlarda

grafematik tahlil

ham deb beriladi. Shuni ta’kidlash joizki, token

nafaqat korpus lingvistikasining, malki boshqa sohalarga ham tegishli termin bo‘lib, asosan, probel

(bo‘shliq)dan probelgacha bo‘lgan belgi token hisoblanadi [Копотев, 2003. 33-37]. Korpus

obyekti matn, eng kichik birligi so‘z (so‘zshakl) hisoblangani uchun korpus lingvistikasida token

sifatida so‘z va so‘z shakllar e’tiborga olinadi.

Korpusda tokenizatsiya bilan birga yana bir muhim jarayon bor. Bu bosqich korpusga

kiritilgan ma’lumotlarni qayta ishlash uchun muhim sanaladi.

Lemmatizatsiya

deb nomlangan bu

jarayonda so‘zshakl boshlang‘ich shakli avtomatik tarzda aniqlanadi, boshlang‘ich shaklning o‘zi

lemma

deyiladi. Lemmatizatsiya flektiv tillar uchun juda muhim. Sababi lemmatizatsiya

jarayonida fleksiyaga uchragan so‘zning asosi tiklanadi. Masalan,

copies → copy, bases → basis,

oxen → ox; вижу → видить, иду → идти, пальчик → палец.

Ma’lumki, deyarli barcha mamlakat xalq ta’limi maskanlarida boshlang‘ich sinflaridanoq

o‘quvchi gapni o‘qiydi va undagi ot, sifat, son, fe’l, ravish, olmosh so‘z turkumlarini aniqlaydi.

Korpus lingvistikasida bu so‘zning turkumlik tegi hisoblanadi. So‘z turkumlarini teglash (ingliz

232

tilida bu

part-of-speech tagging

(

POS tagging

yoki

PoS tagging

yoxud

POST

), rus tilida

частеречная разметка

deyiladi)

matnni avtomatik qayta ishlash bosqichi boʻlib, uning vazifasi

matnda qoʻllangan soʻz (shakl)larning turkumi va grammatik xususiyatlarini aniqlash hisoblanadi.

Shu vazifasi bilan POS-tagging matnni avtomatik tahlil qilishning dastlabki bosqichlaridan biri

sanaladi.

Korpus bazasidagi birliklarni annotatsiyalash uchun so‘z turkumlarini teglash (

POS-

tagging,

Part of Speech tagging – so‘z turkumini anglatuvchi belgi qo‘yish) muhim ahamiyat kasb

etadi. STni bunday belgilash zarurati kompyuterning omonimlarni ajratmasligi bilan bog‘lanadi.

Yaratilgan korpuslarning bunday xususiyatlari va o‘ziga xosliklari ular bilan ishlash

imkoniyati hamda korpuslarning ahamiyatini oshiradi.

Korpus lingvistikasida so‘z turkumlarini teglash

, grammatik kategoriyalarni teglash

[

Asiryan, A.K. 2017.]

va so‘zlarni toifalashda noaniqliklarni bartaraf etish uchun so‘zni faqat

uning lug‘atdagi shakliga asoslanib emas, balki matn (jumla)dagi ifodasi bo‘yicha uning turkumlik

tegi va jumla (xatboshi, ibora)da boshqa so‘zlar bilan birikish imkoniyatini hisobga olish muhim

sanaladi. Gap bo‘laklari teglarini identifikatsiyalash bir muncha qiyin jarayon. Sababi o‘zbek

tilidagi jamiki so‘zlarni universal holda 12 turkum doirasida teglash imkoniyati yo‘q. So‘z uning

jumla tarkibida reallashish holati va N-gramm

[Abjalova, 2020. 73-77]

so‘zlarning semantik

valentligiga binoan polifunksional bo‘lishi mumkin. Masalan: “

Shifoxonaga bemorni keltirishdi

”

va “

Shifoxonaga bemor odamni keltirishdi

” jumlalarining 1-sida

bemor

so‘zi turkumlik belgisi

(kim? so‘rog‘iga javob berayotgan tushum kelishigidagi so‘z)ga ko‘ra ot turkumi, 2-jumlada esa

(qanday? so‘rog‘iga javob beryapti) sifat turkumi vazifasidagi so‘z hisoblanadi. O‘zbek tili izohli

lug‘atida mavjud 11 000 o‘zlashma so‘zlardan 66 ta xuddi shunday polifunksional so‘zlar

aniqlandi.

Soʻz turkumlarini teglash (STT) uchun lingvistik bazada soʻzlar va ularning turkumlari

koʻrsatilgan roʻyxatning kiritilishi kifoya emas. Yuqoridagi soʻz turkumini aniqlash holatidagi

kabi izchillikning yoʻqolishi yoxud bir shaklga ega polifunksional, omonim [Abjalova, 2020. 73-

77] yoki koʻp manoli soʻzlarning gapda ifodalagan turkumini topish hatto mutaxassis tilshunosni

ham fikr yuritishga, izlanishga undaydi. Shuningdek, oʻzbek tilidagi koʻpgina soʻzlar muayyan

turkumga mansubligi aniqlanmagan. Har bir tabiiy tilda mavjud bunday muammolar e’tiborga

olinib STTda bir necha usullarga tayaniladi.

Aksariyat hollarda soʻz turkumlarini teglashda quyidagi usul (metod, algoritm)larga

asoslaniladi: 1) qoidalarga asoslangan usul; 2) stoxastik (yoxud statistik) usul. Ushbu usullarning

233

har biri o‘ziga xos jihatlarga ega bo‘lib, bu haqda dastlabki tadqiqot ishlarimizda batafsil

yoritilgan.

Xulosa

tarzida shuni aytish lozimki, korpus birliklarini teglash 1) korpusdagi statistik

ma’lumotlarni aniq olish; 2) korpus yordamida til o‘rganish va o‘rgatish; 3) korpusda leksik

birliklarning sememalarini aniqlash; 4) kontekstda qo‘llanilgan omonim birliklarni aniqlash; 5)

ko‘p ma’noli va polifunksional so‘zlar semantikasini ochish imkonini beradi. Shu bois korpus

birliklarni teglash muhim ahamiyat kasb etadi.

REFERENCES

1.

Abjalova M. Tahrir va tahlil dasturlarining lingvistik modullari. [Matn]: monografiya. –

Toshkent, 2020. – 176 b. ISBN 978-9943-6939-0-6.

2.

Abjalova, M.A., Yuldashev A. 2021. Methods for Determining Homonyms In

Homonymy And Linguistic Systems. ACADEMICIA: An International Multidisciplinary

Research Journal. Vol. 11, Issue 2, February. Impact Factor: SJIF 2021 = 7.492

(

https://saarj.com

). ISSN: 2249-7137

3.

Abjalova M. Korpus lingvistikasi. [Matn]: uslubiy qo‘llanma / M.A. Abjalova. –

Toshkent: Nodirabegim, 2022. – 110 b.

4.

Asiryan, A.K. 2017. Сравнение инструментов морфологической разметки.

Научный

взгляд в будущее, 10.30888/2415-7538.2017-07-01-027.

5.

Копотев М. В., Мустайоки А. Принципы создания Хельсинского аннотированного

корпуса русских текстов (ХАНКО) в сети интернет // Научно-техническая

информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная

лингвистика в России. 2003. – С. 33-37.

6.

Кутузов А.Б. Курс «Корпусная лингвистика». – 45 с. Лицензия:

http://creativecommons.org/licenses/by-sa/3.0/

References

Abjalova M. Tahrir va tahlil dasturlarining lingvistik modullari. [Matn]: monografiya. – Toshkent, 2020. – 176 b. ISBN 978-9943-6939-0-6.

Abjalova, M.A., Yuldashev A. 2021. Methods for Determining Homonyms In Homonymy And Linguistic Systems. ACADEMICIA: An International Multidisciplinary Research Journal. Vol. 11, Issue 2, February. Impact Factor: SJIF 2021 = 7.492 (https://saarj.com). ISSN: 2249-7137

Abjalova M. Korpus lingvistikasi. [Matn]: uslubiy qo‘llanma / M.A. Abjalova. –Toshkent: Nodirabegim, 2022. – 110 b.

Asiryan, A.K. 2017. Сравнение инструментов морфологической разметки. Научный взгляд в будущее, 10.30888/2415-7538.2017-07-01-027.

Копотев М. В., Мустайоки А. Принципы создания Хельсинского аннотированного корпуса русских текстов (ХАНКО) в сети интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России. 2003. – С. 33-37.

Кутузов А.Б. Курс «Корпусная лингвистика». – 45 с. Лицензия: http://creativecommons.org/licenses/by-sa/3.0/