Авторы

  • G. Sh. Arabboyeva

DOI:

https://doi.org/10.71337/inlibrary.uz.zdift.51859

Ключевые слова:

korpus lingvistikasi metadata teglash kengaytirilgan tahlil nuansli tahlil.

Аннотация

Ushbu tezisda metadata va teglash haqida ma’lumotlar keltirilgan. Ularning korpus yaratishdagi ahamiyati, teglar va metadata yordamida korpusda tadqiqot olib borishning qulaylik va afzalliklari yoritilgan.


background image

`

87

METADATA VA TEGLASHNING KORPUSDAGI AHAMIYATI

Arabboyeva G. Sh.

https://doi.org/10.5281/zenodo.13683333

Annotatsiya:

Ushbu tezisda metadata va teglash haqida ma’lumotlar keltirilgan.

Ularning korpus yaratishdagi ahamiyati, teglar va metadata yordamida korpusda tadqiqot olib
borishning qulaylik va afzalliklari yoritilgan.

ABSTRACT

This paper provides information about metadata and tagging. Their importance in

corpus building, convenience and benefits of corpus research using tags and metadata are
highlighted.

Kalit so‘zlar:

korpus lingvistikasi, metadata, teglash, kengaytirilgan tahlil, nuansli tahlil.

Keywords:

corpus linguistics, metadata, tagging, enhanced analysis, nuanced analysis.

KIRISH

Til jamiyat va vaqt bilan hamnafaslikda o‘zgaradi va rivojlanib boradi. Texnika asrida

yashayotganimiz bois tilni kompyuter texnologiyalari yordamida o‘rganish va
texnologiyalarda tildan foydalanish muammolarini tadqiq etish bugungi kunimizning dolzarb
masalalardan biridir. Ushbu tadqiqotlarning bir qismi korpus lingvistikasida o‘rganiladi.
Korpus lingvistikasi til korpuslarini yaratish bilan bog‘liq masalalarni tadqiq etadi. Korpus
yaratishda ma’lumotlar bazasi, korpusning qidiruv tizmi, interfeysi va shu kabilar bilan bir
qatorda kiritilgan ma’lumotlarni teglash va ularning metadatalarini yaratish muhim ahamiyat
kasb etadi.

ASOSIY QISM

Korpus lingvistikasida metadata va teglar bir necha sabablarga ko‘ra hal qiluvchi

ahamiyatga ega:

1. Ma’lumotlarni tashkil etish va qidirish
- Metadata matnlar muallifi, nashr etilgan sana, janr va kontekst kabilar haqida muhim

ma’lumotlarni taqdim etish orqali korpusni tizimli ravishda tartibga solishga yordam beradi.
Bu esa ushbu mezonlar asosida ma’lumotlar to‘plamini olishni osonlashtiradi va
tadqiqotchilarga matnlarni muayyan parametrlar doirasida tahlil qilish imkonini beradi.

- Teglash matnning nutq qismlari (POS), lemmalar yoki sintaktik tuzilmalar kabi

qismlarga oid ma’lumotlarni o‘z ichiga oladi va bu korpusda olib borilgan maqsadli qidiruv va
tahlillarni osonlashtiradi.

2. Kengaytirilgan tahlil
- Metadata yanada murakkab va nuansli tahlillar (chuqur tahli)ni amalga oshirish

imkonini beradi. Misol uchun, tadqiqotchilar metadata yordamida ma’lumotlarni filtrlash
orqali turli janrlar, vaqt davrlari yoki muallif demografiyasi bo‘yicha tildan foydalanishni
solishtirishlari mumkin.

- Teglash turli lingvistik xususiyatlarni aniqlash va turkumlash orqali chuqur lingvistik

tahlil qilish imkonini beradi. Masalan, POS teglari grammatik tarafdan chuqurroq o‘rganish
imkonini beradi, semantik teglash esa matn ichidagi ma’no va mavzularni tahlil qilishda
yordam beradi.

3. Qayta ishlash va shaffoflik


background image

`

88

- Metadata ishlatilgan ma’lumotlarning kelib chiqishi va xususiyatlarini aniq

hujjatlashtirish orqali tadqiqotlarning takrorlanishini ta’minlaydi. Boshqa tadqiqotchilar bir
xil korpusga metadata bilan birga kirish orqali tadqiqotlarni takrorlashlari yoki
kengaytirishlari mumkin.

- Teglash tahlilning shaffofligiga hissa qo‘shadi, chunki u ma’lumotlar qanday toifalarga

bo‘linganligi va talqin qilinganligini aniq ko‘rsatib beradi, bu esa o‘zaro tekshirish va keyingi
tadqiqotlar uchun zarurdir.

4. O‘zaro hamkorlik
- Metadata korpusni boshqa ma’lumotlar to‘plamlari bilan integratsiyalash imkonini

beradi (misol uchun, internetdagi biror sayt linkini keltirish orqali). Bu esa bir nechta
manbalar bo‘ylab kengroq tadqiqotlar o‘tkazish imkonini beradi. Standartlashtirilgan
metama’lumotlar turli korpuslarni, hatto ular dastlab turli tadqiqot maqsadlari uchun
yaratilgan bo‘lsa ham, birlashtirishni osonlashtiradi.

- Teglash avtomatlashtirilgan lingvistik tahlil uchun turli xil vositalar va dasturlardan

foydalanishga imkon beradi, bu korpusni turli tadqiqot metodologiyalari va texnologiyalari
bilan moslashtiradi.

5. Avtomatlashtirish va masshtablash
- Metadata ma’lumotlarni tanlash va qayta ishlash vazifalarini boshqarishi mumkin

bo‘lgan mashina tomonidan o‘qiladigan ma’lumotlarni taqdim etish orqali yirik korpuslarni
avtomatlashtirilgan qayta ishlashga yordam beradi.

- Teglash ma’lum o‘lchovda avtomatlashtirilgan tahlil qilish imkonini beradi. Masalan,

yorliqli korpusdan katta ma’lumotlar to‘plamidagi lingvistik tendensiyalarni o‘rganish uchun
mashinali o‘qitish modellari bilan foydalanish mumkin, buni qo‘lda qilish mumkin emas.

XULOSA

Xulosa qilib aytganda, metama’lumotlar va teglash korpus lingvistikasida muhim

ahamiyatga ega, chunki ular strukturani ta’minlaydi, batafsil tahlil qilish imkonini beradi va
katta ma’lumotlar to‘plamlarini qayta ishlashda texnologiyadan foydalanishni osonlashtiradi.

References:

1.

Biber, D., Conrad, S., & Reppen, R. (1998). *Corpus Linguistics: Investigating Language

Structure and Use.* Cambridge University Press.
2.

McEnery, T., & Hardie, A. (2011). *Corpus Linguistics: Method, Theory and Practice.*

Cambridge University Press.
3.

Leech, G. (1997). *Introducing Corpus Annotation.* In *Corpus Annotation: Linguistic

Information from Computer Text Corpora,* ed. by Roger Garside, Geoffrey Leech, and Tony
McEnery. Addison Wesley Longman.
4.

Hunston, S. (2002). *Corpora in Applied Linguistics.* Cambridge University Press.

Библиографические ссылки

Biber, D., Conrad, S., & Reppen, R. (1998). *Corpus Linguistics: Investigating Language Structure and Use.* Cambridge University Press.

McEnery, T., & Hardie, A. (2011). *Corpus Linguistics: Method, Theory and Practice.* Cambridge University Press.

Leech, G. (1997). *Introducing Corpus Annotation.* In *Corpus Annotation: Linguistic Information from Computer Text Corpora,* ed. by Roger Garside, Geoffrey Leech, and Tony McEnery. Addison Wesley Longman.

Hunston, S. (2002). *Corpora in Applied Linguistics.* Cambridge University Press.