227
KORPUS BIRLIKLARINI TEGLASH VA ANNOTATSIYALASH MASALASI
Manzura Abjalova
Filologiya fanlari doktori (DSc), dotsent
Toshkent davlat oʻzbek tili va adabiyoti universiteti dotsenti, f.f.d. (DSc)
E-mail:
ORCID:
0000-0002-1927-2669
https://doi.org/10.5281/zenodo.10206008
Annotatsiya.
Lingvistik korpuslarni matnlar arxivi, elektron ensiklopediya va lug‘atlar
tizimi, elektron kutubxona kabi matnli tizimlardan farqlaydigan xususiyatlardan biri – lingvistik
izoh yoxud teg hisoblanadi. Korpus birlikilarini teglash
natijasida bir qancha qulay imkoniyatlar
yuzaga keltiriladi. Maqolada shu haqda so‘z boradi.
Kalit so‘zlar:
teg, annotatsiya, lingvistik izoh, korpus, metama’lumot.
TASK OF TAGGING AND ANNOTATION OF CORPUS UNITS
Abstract.
One of the characteristics that distinguishes linguistic corpora from text systems,
such as an archive of texts, a system of electronic encyclopedias and dictionaries, an electronic
library, is a linguistic annotation or tag. Tagging of corpus units provides a number of convenient
features. This will be discussed in the article.
Keywords:
tag, annotation, linguistic comment, Corpus, metadata.
ПРОБЛЕМА МАРКИРОВКИ И АННОТИРОВАНИЯ ПОДРАЗДЕЛЕНИЙ
КОРПУСА
Аннотация.
Одной из особенностей, отличающих лингвистические корпуса от
текстовых систем, таких как архив текстов, система электронных энциклопедий и
словарей, электронная библиотека, является лингвистическая аннотация или тег.
Маркировка корпусных единиц дает ряд удобных возможностей. Об этом и пойдет речь в
статье.
Ключевые слова:
тег, аннотация, лингвистическая аннотация, тело, метаданные.
Turli lingvistik topshiriq / amalni bajarish uchun matnga lingvistik va ekstralingvistik
qo‘shimcha ma’lumot bilan ishlov berilgan bo‘lishi lozim. Buning uchun mavjud matnning
komponentlariga maxsus izoh (masalan, so‘z turkumi haqida ma’lumot) berilishi zarur
hisoblanadi. Bu izoh matn
annotatsiyasi,
maxsus lingvistik belgilar esa
teg
(belgi, ishora) (rus.
razmetka
, ing.
tag
) deb ataladi. Matn birliklarini izohlash esa
annotatsiyalash
yoki
lingvistik
izohlash
(
annotation
)
,
har bir lingvistik birlikni ramzlash esa
teglash
(
разметка, tagging, mark-
228
up)
deyiladi. Masalan, ot turkumi “Ot” yoki “N”, sifat turkumi “Sif” yoki “Adj”, fe’l turkumi “F”
yoki “V” tarzida teglanadi. Matnda esa ot turkumiga tegishli “
kitobim
” so‘zshakli “
Ot, n-b nom.,
birl., I sh., b. eg.q
.” kabi annotatsiyalanadi, ya’ni lingvistik izohlanadi. Teglash va
annotatsiyalashning eng oddiy misoli – so‘z turkumlarini umumiy ramzlash va umumiy izohlash
hisoblanadi. Bu shunday ko‘rinishi mumkin:
Samiya xalqaro tanlovga
yaqinda boradi
Izohlaymiz:
Samiya
(ot)
xalqaro
(sifat)
tanlovga
(ot)
yaqinda
(ravish)
boradi
(fe’l)
.
Men o‘g‘lim bilan faxrlanaman.
Izohlaymiz:
Men
(olmosh)
o‘g‘lim
(ot)
bilan
(ko‘makchi)
faxrlanaman
(fe’l)
.
Tarixga nazar.
80-yillarda SGML1 (Standard Generalized Markup Language) deb
nomlangan elektron matnlarni belgilash standarti qabul qilingan. U tipografiya sanoatida ishlab
chiqilgan, ammo tez fursatda boshqa sohalarga tarqaldi. SGMLning maqsadi shundaki, turli matn
protsessorlarida yozilgan hujjatlarni tahrirlash, tahlil qilish va ularning istalgancha o‘zgartirish
mumkin bo‘ladi.
SGML teglar tushunchasini kiritdi. Teglar (ing. tags) – bu matndagi xizmat belgilari,
matnning o‘zi haqidagi ma’lumotni o‘z ichiga oladi. Har bir holat maxsus teglarni belgilash va shu
bilan SGML tilining dialektlarini yaratishish mumkin. SGML belgilash tili – tillarning
“konstruktori”. U juda murakkab til sanaladi va juda kam ishlatiladi. Ammo uning asosida HTML
va XML kabi taniqli belgilash tillari yaratildi.
Matnli ma’lumotlarni (korpuslarni) teglash uchun bir necha universitetlar matnlarning
qaysi parametrlarini teglash kerakligini tavsiflovchi tizimni maxsus ishlab chiqdi. Ushbu tizim
XMLdan foydalanadi va
Text Encoding Initiative Guidelines
(
TEI Guidelines
)
1
deb nomlanadi.
Bu kodlash, teglash va indeksirlash mumkin bo‘lgan matnlarning turli xil xususiyatlarining
ro‘yxati hisoblanadi. Masalan, tizim matndagi turli xil tuzatishlar, iqtiboslar, qisqrtmalar, atoqli
otlar, initsial, akronimlar, chet el so‘zlari va boshqalarni sanab o‘tadi. Hozirgi vaqtda korpuslarni
yaratish bo‘yicha deyarli barcha loyihalar (shu jumladan, Britaniya Milliy korpusi) TEI
tavsiyalariga u yoki bu tarzda amal qilishga harakat qilmoqda [
Кутузов А.Б.]
.
1
229
An’anaga muvofiq teglar burchakli qavslarda juft, ya’ni ochish va yopish holatida bo‘ladi.
Masalan, <a> ochuvchi teg, </a> yopuvchi teg. Yopish tegi ochish tegida berilgan xabarning
tugaganligini bildiradi. Fikrga yuqoridagi gap bilan misol keltiramiz:
<pron>
Men
</pron></N>
o‘g‘lim
<N><prep>
bilan
</prep> <V>
faxrlanaman
</V>.
Ayon bo‘lganidek, gap boshidagi LB
<pron>
Men
</pron>
olmoshi ekanligi haqida belgi
berilgan.
Yoki yana
<ds>
Samimiyatni o‘zingizga bezak qilib oling
</ds>
– deydilar onajonim.
Ushbu gapdagi “
Samimiyatni o‘zingizga bezak qilib oling
” qismi
<ds>
va
</ds>
teglarida
berilgan, bu teg ko‘chirma gap (direct speech – ds)ni anglatadi.
Og‘zaki nutq korpuslarida
<pause>
tegi toq holda qo‘llanilishi mumkin. Uning ochuvchi
yoki yopuvchi ekanligi ahamiyatsiz bo‘ladi. Bu teg qo‘yilgan o‘rinda to‘xtam bo‘lganligini
anglatadi.
Teglar qisqa belgi yoki ramzlardan iborat bo‘ladi. Masalan,
sifat – sif, fe’l – f, noun – N,
verb – v
tarzida. Teglar foydalanuvchiga ko‘rinmaydi. matnni Annotatsiyalangan ko‘rsatadigan
dastur teglarni o‘ziga xos qoidalarga muvofiq izohlaydi va foydalanuvchiga shu qoidalarga
muvofiq shakllantirilgan matnni taqdim etadi.
Avtomatik annotatsiyalash / teglash.
Katta hajmli korpuslarni teglash ko‘p vaqt va
mablag‘ni talab qiladi. Shu bois XX arsning 70-yillarida annotatsiyalashni kompyuter orqali qilish
loyihalari paydo bo‘la boshladi. Shunda TAGGIT dasturi Braun korpusining 77 % so‘zining
turkumlarini teglagan. Qolgan 23 % esa o‘n yil davomida qo‘lda teglangan. 80-yillarda CLAWS
(Constituent Likelihood Automatic Word-tagging System) tizimining teglash ko‘rsatkichi 95 %ga
chiqdi. Unda ehtimollik nazariyasi tatbiq qilingan. Bu haqda quyida ma’lumot berildi. Bugungi
kunda asosiy Yevropa tillarining so‘z turkumlarini avtomatik teglash (morfologik tahlil, word-
class tagging) va gap bo‘laklarini avtomatik teglash (sintaktik tahlil, parsing) tizimlari ishlab
chiqilgan. Bu imkoniyatlar Internet qidiruvi vs mashina tarjimasida ham zarur sanaladi.
Shuningdek, “Matnlarni avtomatik qayta ishlash” (
) nomi bilan rus tilini
kompyuter texnologiyalari yordamida qayta ishlash imkoniyatlari yaratildi. Rossiya davlat
gumanitar universiteti Lingvistika fakultetining bir guruh mutaxassislari ushbu tizimda rus, nemis
va ingliz tillari uchun
–
grafematik (so‘zlarning chegarasini aniqlashtirish);
–
morfologik (so‘z turkumlarini aniqlash);
–
sintaktik (gap bo‘laklarini belgilash);
230
–
semantik (so‘zlardagi semantik munosabatni aniqlash) modular ishlab chiqilgan
[Abjalova, 2020].
Umuman, matnlarni teglashning ikki turi mavjud:
metama’lumot
yozish va
lingvistik
izoh
, ya’ni belgi biriktirish.
1.
Metama’lumot
(
metadata, metaizoh, metalingvistik ma’lumot, ekstralingvistik
ma’lumot
) korpusga kiritilgan manba nomi, muallifi, yaratilgan vaqti, voqea joyi, uslubi, janri,
shoir yashagan davr tilshunosligi nuqtayi nazaridan (tilning ma’lum davrga xosligi) ilmiy
yondashishni: shoirning badiiy so‘z qo‘llash uslubi va mahorati (xalq og‘zaki ijodi namunalari:
maqol, matal, topishmoq, turli qochirimlar, hikmatli so‘zlar, iboralar)ni chuqur o‘rganish, janrning
ijtimoiy-tarbiyaviy ahamiyatini yoritish, janrlarni tahlil qilish jarayonida mazmunan qaysi
auditoriya yoshiga mosligini aniqlash mumkin.
2.
Lingvisti izoh (maxsus lingvistik belgi)
da matndagi leksik birliklar lingvistik
xususiyatlariga ko‘ra belgilanadi: so‘zshaklning grammatik ma’nosi – soʻzning turkumi va shu
turkumga tegishli grammatik kategoriyalari (feʼl, ot, sifatlar va boshqalar), semantik
xususiyatlariga xos belgilari, arxaizm, istorizm so‘zlar haqidagi maʼlumotlar
teglar (ramziy
belgilar)
koʻrinishida korpusga kiritililadi, natijada korpusning ta’limiy va tadqiqiy ahamiyati
oshadi, foydalanuvchilarga korpusda maxsus qidiruvni ham bajarish imkonini beradi.
Lingvistik izohlash tiplari:
1)
morfologik
(part-of-speech tagging yoki POS-tagging) – so‘z turkumlarini teglash.
Masalan, ot – Ot (N), fe’l – F (V), sifat – Sif (Adj) tarzida;
2)
sintaktik tahlil yoki parsing
– leksik birliklar va turli sintaktik tuzilmalar orasidagi
sintaktik munosabatlarni tavsiflash;
3)
semantik
– berilgan so‘z yoki ibora tegishli bo‘lgan semantik toifalarga va uning
ma’nosini aniqlaydigan kichikroq toifalarga ko‘ra tavsiflash;
4)
anaforik
– referent aloqalarini, masalan, olmoshlar bilan bog‘lanishni izohlash;
5)
prosodik
– urg‘u va intonatsiyani tavsiflaydigan teglardan foydalanadi;
6)
diskurs
– og‘zaki nutq korpusida pauza, takrorlash, eslatma va hokazolarni ko‘rsatish
uchun matn maxsus izohlanadi;
7)
stilistik
– leksik birlikning uslubiy xoslanishini ko‘rsatadi.
Ushbu lingvistik izohlarni amalga oshirishda quyidagi asosiy printsiplarga rioya qilish
maqsadga muvofiq:
Nazariy jihatdan neytral (an’anaviy) izohlash sxemasi – har bir korpusga o‘ziga xos
izohlash sxemalari, ya’ni elementlaridan foydalanib, chigalliklarni yuzaga keltirgandan ko‘ra,
231
yirik lingvistik korpuslarni teglash spetsifikasidagi elementlarni umumfoydalanish uchun asos
qilib olinishi o‘zbek tili korpuslarining jahon talabidagi zamonaviy korpus deya e’tirof etilishiga
asos bo‘ladi va o‘z o‘rnida bunday korpus standart korpus vazifasini o‘taydi. Modomiki
ko‘pchilikka ma’lum izohlash sxemasidan foydalanilmasdan mualliflik nazariyasi yaratib olinsa,
korpusdan foydalanuvchi izohlash tizimini chuqurroq urganib chiqishga majbur bo‘ladi. Tabiiyki,
bunday ortiqcha izlanish foydalanuvchiga ma’qul kelmaydi.
Lingvistik tushunchalarning umumiy qabul qilingan tizimi – lingvistik korpuslarning
dunyo miqyosida ahamiyatga ega bo‘lishi uchun teglar xalqaro belgi va ramzlardan foydalanish
o‘rinli bo‘ladi. Bu, asosan, lingvodidaktikada ahamiyatli hisoblanib, til o‘rganish va o‘rgatish
jarayonini yanada qulaylashtiradi.
Parametrlarni samarali kiritish – juda katta miqdordagi lingvistik birliklarni to‘g‘ri
teglashda inson omili va yarim avtomat jarayoni ishonchli hisoblanadi. Buning uchun fidoyi
mutaxassislar jamoasining sermahsul mehnati talab qilinadi.
Xalqaro standartlarga rioya qilish – teglashning TEI xalqaro standartiga rioya etish
ulkan tajribaga tayanish hisoblanadi.
Quyida lingvistik izohlashning morfologik turiga kengroq to‘xtalamiz.
Morxologik belgilash
ning asosiy birligi – bu belgilar zanjiri sifatida tushuniladigan va
odatda, oddiy so‘zshaklga teng bo‘lgan matniy shakl yoki
token
. Bunday ramziy holat kompyuter
dasturining ishi uchun zarur hisoblanadi. Matndagi tokenlarni alohidalash jarayoni
tokenizatsiya
deyiladi. Ayrim adabiyotlarda
grafematik tahlil
ham deb beriladi. Shuni ta’kidlash joizki, token
nafaqat korpus lingvistikasining, malki boshqa sohalarga ham tegishli termin bo‘lib, asosan, probel
(bo‘shliq)dan probelgacha bo‘lgan belgi token hisoblanadi [Копотев, 2003. 33-37]. Korpus
obyekti matn, eng kichik birligi so‘z (so‘zshakl) hisoblangani uchun korpus lingvistikasida token
sifatida so‘z va so‘z shakllar e’tiborga olinadi.
Korpusda tokenizatsiya bilan birga yana bir muhim jarayon bor. Bu bosqich korpusga
kiritilgan ma’lumotlarni qayta ishlash uchun muhim sanaladi.
Lemmatizatsiya
deb nomlangan bu
jarayonda so‘zshakl boshlang‘ich shakli avtomatik tarzda aniqlanadi, boshlang‘ich shaklning o‘zi
lemma
deyiladi. Lemmatizatsiya flektiv tillar uchun juda muhim. Sababi lemmatizatsiya
jarayonida fleksiyaga uchragan so‘zning asosi tiklanadi. Masalan,
copies → copy, bases → basis,
oxen → ox; вижу → видить, иду → идти, пальчик → палец.
Ma’lumki, deyarli barcha mamlakat xalq ta’limi maskanlarida boshlang‘ich sinflaridanoq
o‘quvchi gapni o‘qiydi va undagi ot, sifat, son, fe’l, ravish, olmosh so‘z turkumlarini aniqlaydi.
Korpus lingvistikasida bu so‘zning turkumlik tegi hisoblanadi. So‘z turkumlarini teglash (ingliz
232
tilida bu
part-of-speech tagging
(
POS tagging
yoki
PoS tagging
yoxud
POST
), rus tilida
частеречная разметка
deyiladi)
matnni avtomatik qayta ishlash bosqichi boʻlib, uning vazifasi
matnda qoʻllangan soʻz (shakl)larning turkumi va grammatik xususiyatlarini aniqlash hisoblanadi.
Shu vazifasi bilan POS-tagging matnni avtomatik tahlil qilishning dastlabki bosqichlaridan biri
sanaladi.
Korpus bazasidagi birliklarni annotatsiyalash uchun so‘z turkumlarini teglash (
POS-
tagging,
Part of Speech tagging – so‘z turkumini anglatuvchi belgi qo‘yish) muhim ahamiyat kasb
etadi. STni bunday belgilash zarurati kompyuterning omonimlarni ajratmasligi bilan bog‘lanadi.
Yaratilgan korpuslarning bunday xususiyatlari va o‘ziga xosliklari ular bilan ishlash
imkoniyati hamda korpuslarning ahamiyatini oshiradi.
Korpus lingvistikasida so‘z turkumlarini teglash
, grammatik kategoriyalarni teglash
[
Asiryan, A.K. 2017.]
va so‘zlarni toifalashda noaniqliklarni bartaraf etish uchun so‘zni faqat
uning lug‘atdagi shakliga asoslanib emas, balki matn (jumla)dagi ifodasi bo‘yicha uning turkumlik
tegi va jumla (xatboshi, ibora)da boshqa so‘zlar bilan birikish imkoniyatini hisobga olish muhim
sanaladi. Gap bo‘laklari teglarini identifikatsiyalash bir muncha qiyin jarayon. Sababi o‘zbek
tilidagi jamiki so‘zlarni universal holda 12 turkum doirasida teglash imkoniyati yo‘q. So‘z uning
jumla tarkibida reallashish holati va N-gramm
[Abjalova, 2020. 73-77]
so‘zlarning semantik
valentligiga binoan polifunksional bo‘lishi mumkin. Masalan: “
Shifoxonaga bemorni keltirishdi
”
va “
Shifoxonaga bemor odamni keltirishdi
” jumlalarining 1-sida
bemor
so‘zi turkumlik belgisi
(kim? so‘rog‘iga javob berayotgan tushum kelishigidagi so‘z)ga ko‘ra ot turkumi, 2-jumlada esa
(qanday? so‘rog‘iga javob beryapti) sifat turkumi vazifasidagi so‘z hisoblanadi. O‘zbek tili izohli
lug‘atida mavjud 11 000 o‘zlashma so‘zlardan 66 ta xuddi shunday polifunksional so‘zlar
aniqlandi.
Soʻz turkumlarini teglash (STT) uchun lingvistik bazada soʻzlar va ularning turkumlari
koʻrsatilgan roʻyxatning kiritilishi kifoya emas. Yuqoridagi soʻz turkumini aniqlash holatidagi
kabi izchillikning yoʻqolishi yoxud bir shaklga ega polifunksional, omonim [Abjalova, 2020. 73-
77] yoki koʻp manoli soʻzlarning gapda ifodalagan turkumini topish hatto mutaxassis tilshunosni
ham fikr yuritishga, izlanishga undaydi. Shuningdek, oʻzbek tilidagi koʻpgina soʻzlar muayyan
turkumga mansubligi aniqlanmagan. Har bir tabiiy tilda mavjud bunday muammolar e’tiborga
olinib STTda bir necha usullarga tayaniladi.
Aksariyat hollarda soʻz turkumlarini teglashda quyidagi usul (metod, algoritm)larga
asoslaniladi: 1) qoidalarga asoslangan usul; 2) stoxastik (yoxud statistik) usul. Ushbu usullarning
233
har biri o‘ziga xos jihatlarga ega bo‘lib, bu haqda dastlabki tadqiqot ishlarimizda batafsil
yoritilgan.
Xulosa
tarzida shuni aytish lozimki, korpus birliklarini teglash 1) korpusdagi statistik
ma’lumotlarni aniq olish; 2) korpus yordamida til o‘rganish va o‘rgatish; 3) korpusda leksik
birliklarning sememalarini aniqlash; 4) kontekstda qo‘llanilgan omonim birliklarni aniqlash; 5)
ko‘p ma’noli va polifunksional so‘zlar semantikasini ochish imkonini beradi. Shu bois korpus
birliklarni teglash muhim ahamiyat kasb etadi.
REFERENCES
1.
Abjalova M. Tahrir va tahlil dasturlarining lingvistik modullari. [Matn]: monografiya. –
Toshkent, 2020. – 176 b. ISBN 978-9943-6939-0-6.
2.
Abjalova, M.A., Yuldashev A. 2021. Methods for Determining Homonyms In
Homonymy And Linguistic Systems. ACADEMICIA: An International Multidisciplinary
Research Journal. Vol. 11, Issue 2, February. Impact Factor: SJIF 2021 = 7.492
). ISSN: 2249-7137
3.
Abjalova M. Korpus lingvistikasi. [Matn]: uslubiy qo‘llanma / M.A. Abjalova. –
Toshkent: Nodirabegim, 2022. – 110 b.
4.
Asiryan, A.K. 2017. Сравнение инструментов морфологической разметки.
Научный
взгляд в будущее, 10.30888/2415-7538.2017-07-01-027.
5.
Копотев М. В., Мустайоки А. Принципы создания Хельсинского аннотированного
корпуса русских текстов (ХАНКО) в сети интернет // Научно-техническая
информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная
лингвистика в России. 2003. – С. 33-37.
6.
Кутузов А.Б. Курс «Корпусная лингвистика». – 45 с. Лицензия:
http://creativecommons.org/licenses/by-sa/3.0/
