Xususiy korpuslarni tuzishda alohida matn ustida ishlash yo‘llari (A.Qodiriy asarlari misolida)

CC BY f
49-52
6
6
Поделиться
Чориева, У. (2023). Xususiy korpuslarni tuzishda alohida matn ustida ishlash yo‘llari (A.Qodiriy asarlari misolida). Современные тенденции инновационного развития науки и образования в глобальном мире, 1(2), 49–52. https://doi.org/10.47689/STARS.university-pp49-52
Умида Чориева, Термезский государственный университет

преподаватель

Crossref
Сrossref
Scopus
Scopus

Аннотация

Ushbu maqolada o‘zbek tilining korpusini yaratishda xususiy korpuslar asos vazifasini bajarishi haqida so‘z yuritilgan. Abdulla Qodiriyning “O‘tkan kunlar” asarining xususiy korpusini yaratish lingvistik jihatdan o‘rganilgan.

Похожие статьи


background image

STARS International University

49

Annotatsiya:

Ushbu maqolada

o‘zbek tilining korpusini yaratishda xususiy korpuslar asos

vazifasini bajarishi haqida so‘z yuritilgan. Abdulla Qodiriyning “O‘tkan kunlar” asarining
xususiy korpusini yaratish lingvistik jihatdan o‘rganilgan.

Kalit so‘zlar:

korpus, sun’iy intellekt, kodlashtirish, afifa, qolapoy, bo‘yro.

Дунёда кечаётган интеграция ва глобаллашув жараёнида ўзбек тилини ду-

нёвий тиллар даражасига олиб чиқиш ўзбек тилшунослиги олдидаги муҳим
вазифалардан бири ҳисобланади.

Жаҳон миқёсида табиий тилнинг сунъий интеллект билан узвий муносаба-

тини текшираётган янги йўналишларнинг шаклланиб бўлганлиги ўзбек тили-
ни замонавий ва самарали тадқиқ усуллари орқали илмий ўрганишни талаб
қилмоқда. Яъни тилшунос Б. Йўлдошев таъбири билан айтганда, “Қуруқ на-
зарий фикрларга тўла тадқиқотлар билан бир қаторда, халқимиз учун фойда
келтирадиган компьютер дастурларини ишлаб чиқишда фаол иштирок этиш
лозим”.

Жаҳон тилшунослигида алоҳида йўналиш сифатида шаклланаётган кор-

пус лингвистикаси тилшунослигимиз олдига ўзбек тилининг ҳам миллий
электрон корпусини яратиш каби долзарб вазифаларни қўймоқда.

Миллий корпусимиз бошқа корпуслардан фарқли равишда ўзбек тилининг

барча имкониятлари, маъно бойлиги, асрлар давомида шаклланган луғат за-
хираси, бошқа тиллардан устун жиҳатларини ўзида мужассамлаштирган бў-
лиши лозим. Миллий корпусни яратишдан аввал маълум бир асарнинг хусу-
сий корпусини яратиш лозим бўлади. Бу соҳада тилшунослигимизда бир қан-
ча назарий ишлар қилинган бўлса-да, амалий жиҳатдан кичик бир асарнинг
ёки матннинг хусусий корпуси ҳали яратилмаган. Табиийки, янгиликнинг тан
олиниши қанчалик қийин кечмасин, унинг амалиётга татбиқи муваффақиятли
бўлса, у шунчалик катта ютуқларга эга бўлади.

Тилшунос А. Раҳимов электрон луғатларнинг ишлаш принципларини

умумлаштириб, қуйидагича изоҳлаган: “Тилнинг ҳар бир сўзига мутано-

CHORIYEVA UMIDA,

TerDU o‘qituvchisi

XUSUSIY KORPUSLARNI
TUZISHDA ALOHIDA
MATN USTIDA ISHLASH
YO‘LLARI (A.QODIRIY
ASARLARI MISOLIDA)

https://doi.org/10.47689/STARS.university-pp49-52


background image

Global dunyoda ilm-fan va ta‘limdagi innovatsion

rivojlanishning zamonaviy trendlari 15 dekabr, 2022 yil.

50

сиб келувчи код ишлаб чиқилади, кодни қайта ишлаш жараёнида зару-
рий бўлган маълумотлар, таржималар, синоним, антоним ва шарҳларга
эга бўлиш мумкин. Мазкур қоида бўйича алоҳида матннинг корпусини ту-
зишда, аввало, маълумотлар базаси шакллантирилади, бунда ўзбек тили-
да яратилган барча бадиий адабиётлар, газета ва журналлардаги мақола
ва очерклар, илмий ва сиёсий адабиётларнинг матни лингвистик корпус-
нинг манбаи ҳисобланади. Масалан, А.Қодирийнинг “Ўткан кунлар” аса-
рининг хусусий корпусини тузиш. Бу жараён босқичма-босқич амалга
оширилади”.

Аввало, лингвистик корпуснинг маълумотлар омборига матнларнинг элек-

трон варианти жойлаштирилади. Кейинги дастурий таъминот жараёнида
матнни моделлаштириш ва алгоритмлаш босқичи амалга оширилади. Бун-
да матндаги сўзларнинг лексик сатҳи ўрганилиб, гуруҳларга ажратилади ва
кетма-кетликда жойлаштирилади. Масалан, синоним сўзлар, омоним сўзлар,
шевага оид сўзлар, тарихий сўзлар, иборалар, кўп маъноли сўзлар каби. Мат-
ндаги ҳар бир сўзни маълум гуруҳларга бўлиб жойлаштиришда сўзнинг ус-
лубий бўёқдорлиги, турли маъно нозикликлари, валентлик каби ҳодисаларга
алоҳида эътибор бериш лозим. Бу вазиятда ҳар бир сўз матндаги маъноси
бўйича жойлаштирилади.

Лингвистик таъминот босқичида сўзларнинг лексик маънолари изоҳлана-

ди. Масалан, сипориш – топшириқ, мишовур – маслаҳатчи, амсоли – ҳоказо,
афифа – покиза қиз каби тарихий сўзлар изоҳланади; бўйро, қолапой афзали
каби шевага оид сўзларнинг асл маъноси келтирилади; қамчинидан қон том-
моқ, чувалган ипнинг учини топмоқ, терисига сиғмай кетмоқ каби иборалар-
нинг лексик маъноси изоҳланади.

Дастурни тузишда энг мушкул жараён кодлаштириш, яъни матнни инсон

тушунадиган тилдан машина (компьютер) тушунадиган тилга ўтказиш жа-
раёни ҳисобланади. Сўзларни кодлаштириш қуйидагича амалга оширилади.
Матндаги сўзларнинг ҳар бири уч қисмдан иборат бўлади:1) сўзнинг тартиб
рақами; 2) сўз; 3) код.

“Сўзнинг тартиб рақами” (унинг адреси). Дастурий таъминот босқичида

ажратилган гуруҳлар ҳар бир сўзнинг адреси ҳисобланади. Масалан, сино-
ним сўзларни биринчи гуруҳ деб олсак, 01С ҳарфи билан ва унинг маъно-
доши ҳам ушбу кўринишда белгиланади. Шевага оид сўзларни иккинчи деб
олсак, 02Ш ҳарфи билан белгиланади ва ҳоказо.

“Сўз” – мутаносиб алфавит ҳарфлари билан белгиланади. Масалан, “гўзал”

синоним сўзининг адреси биринчи гуруҳга мансуб бўлганлиги учун 01С деб
белгиланади ва кейинги мутаносиб алфавит ҳарфи ёрдамида бош ҳарфи Г
бўлганлиги сабабли 01СГ деб кодлаштирилади. Бунда синонимик қатордаги
барча сўзлар 01С коди билан ёзилади. Масалан, “гўзал” сўзининг синоними
бўлган “чиройли” сўзи 01СЧ кўринишида жойлаштирилади.

“Код” – рақам ва ҳарфлар кетма-кетлиги бўлиб, унда сўз барча зарурий

морфологик, синтактик, лексик хусусиятлари ҳамда ушбу сўзнинг қайси сўз-
га тегишлилиги ҳақидаги маълумотлар жамланган бўлади. Масалан, “гўзал”
сўзи 01СГ0003 рақамлари билан кодлаштирилади.

Кейинги босқич лемматизация, яъни сўзлик тайёрлаш жараёни. А.Раҳи-

мовнинг “Компьютер лингвистикаси” асарида лемматизацияга қуйидагича


background image

STARS International University

51

таъриф берилади: “лемматизация – сўзнинг дастлабки, бошланғич формаси-
ни (луғатдаги шаклини – леммасини) ташкиллаштириш техникаси бўлиб, бу
жараён ўша сўзнинг бошқа сўз шаклларидан келиб чиққани ҳолда амалга
оширилади”.

Бу жараён икки босқичда амалга оширилади: биринчиси, ҳар бир сўзнинг

мумкин бўлган барча шакллари белгиланади, иккинчиси, сўз асос ва қўшим-
чаларга бўлинади. Лемматизация сўзларнинг грамматик валентлиги, қайси
аффикслар билан бирика олиш имкониятини ҳам белгилаб беради. Бу жа-
раёнда изланаётган сўзнинг фақат ўзак қисми ажратиб кўрсатилади, унинг
қайси ўринда қандай маънода ишлатилганлиги, омонимик хусусиятлари матн
мазмунидан келиб чиққан ҳолда аниқланади.

Кейинги қидирув ва декодлаш, яъни машина тушунадиган тилдан инсон

тушунадиган тилга ўтказиш жараёни дастурчи томонидан амалга оширила-
ди.

Дастурнинг ишлаш механизми қуйидагича амалга оширилади:1. Изланаёт-

ган маълум сўз, масалан, “

осмон

” сўзи киритилади, натижада, матнда мазкур

сўз қайси ўринда, қандай бирикмалар ёрдамида боғланган бўлса, барчаси
белгиланган ҳолда намоён бўлади. Масалан:

- ...бошида симоби шоҳи салла, устидан қора мовут сирилган совсар пў-

стин, ичида ўзининг Шамайда тиктиргани

осмон

и ранг мовут камзул...

- Гўё бу сўзлар Кумушбибининг ўчкан чароғини қайтадан ёқарлар, умид

осмон

ининг йўқолиб, яшириниб кеткан юлдузлари яна қайтадан ўз ўринла-

рига келиб қўнғандек бўлурлар... ва ҳоказо.

2. Кейинги қаторларда киритилган сўзнинг лексик-семантик хусусиятлари

(синонимик қатордаги вариантлари, иборалар, ўхшатишлар ва мақоллардаги
ишлатилиш ўринлари) келиб чиқади. Масалан, “осмон” сўзи белгиланганда
унинг остида “кўк”, “само” каби маънодошлари ва асарда улар қатнашган
жумлалар чиқади. Масалан:

- ...мен шундай ерни топиб тексам бошим

кўк

ка етар еди...

- Ерлар ериб, ҳамма ёқ шилт-пилт лой, қўрғон кунгираларидаги қировлар

бўғқа айланиб

кўк

ка кўтарилмакда едилар.

- Юсуфбек ҳожи бошлиқ ер ва

кўк

ка сиғмаған музаффар халқ ўрда тевара-

гини қуршаб тушди ва ҳоказо.

3. Матндаги белгиланган сўзлар устига борилганда уларга тегишли маълу-

мотлар чиқади. Масалан:

- бошим

кўк

ка етар еди (ибора)

- ер ва

кўк

ка сиғмаған (ибора) каби. Агар бу сўзлар шевага оид ёки тари-

хий сўзлар бўлса, уларга тегишли маълумотлар ҳам шу кўринишда намоён
бўлади.

Дастурни яна ҳам мукаммаллаштириш учун ҳар бир сўзнинг морфологик

келиб чиқиши, синтактик белгиларини ҳам киритиш мумкин. Дастур тилшу-
нос ва луғатшунослардан ташқари адабиётшунослар, муҳаррирлар, ўқитув-
чи ва журналистлар, ижтимоий фан соҳаси мутахассислари учун манба бў-
лиш билан бирга турли автоматлаштирилган тизимларни яратишда муҳим
аҳамиятга эга.

Миллий корпус лингвистик тадқиқотлар ва тил таълими учун электрон

дастурлаштирилган маълумот базаси бўлиб хизмат қилар экан, энг аввало,


background image

Global dunyoda ilm-fan va ta‘limdagi innovatsion

rivojlanishning zamonaviy trendlari 15 dekabr, 2022 yil.

52

алоҳида матнларнинг кичик хусусий корпусларини яратиш ва уларни умум-
лаштириш миллий корпус тузишда пойдевор бўлиб хизмат қилади.

Фойдаланилган адабиётлар рўйхати

:

1. А.Раҳимов. Компьютер лингвистикаси асослари. Т.: Академнашр, 2011
2. А.Пўлатов, С.Муҳаммедова, Компьютер лингвистикаси. - Тошкент, 2007.
3. A.Қодирий. Ўткан кунлар. T.: Ўқитувчи, 1980
4. A.Қодирий. Меҳробдан чаён. T.: Ўқитувчи, 1982
Б.Йўлдошев. Компьютер лингвистикаси: муаммо, вазифва ҳамда истиқбол,

Мақола. www.ziyo.uz. sayti

Б.Йўлдошев. Компьютер лингвистикаси. – Самарқанд: СамДУ нашри, 2008
Ш Сафаров, Б Иулдошев. Компьютер лингвистикасини биласизми? Моҳи-

ят. 2004 йил 14 август.

Библиографические ссылки

А.Раҳимов. Компьютер лингвистикаси асослари. Т.: Академнашр, 2011

А.Пўлатов, С.Муҳаммедова, Компьютер лингвистикаси. - Тошкент, 2007.

A.Қодирий. Ўткан кунлар. T.: Ўқитувчи, 1980

A.Қодирий. Меҳробдан чаён. T.: Ўқитувчи, 1982

Б.Йўлдошев. Компьютер лингвистикаси: муаммо, вазифва ҳамда истиқбол, Мақола. www.ziyo.uz. sayti

Б.Йўлдошев. Компьютер лингвистикаси. – Самарқанд: СамДУ нашри, 2008

Ш Сафаров, Б Иулдошев. Компьютер лингвистикасини биласизми? Моҳият. 2004 йил 14 август.

inLibrary — это научная электронная библиотека inConference - научно-практические конференции inScience - Журнал Общество и инновации UACD - Антикоррупционный дайджест Узбекистана UZDA - Ассоциации стоматологов Узбекистана АСТ - Архитектура, строительство, транспорт Open Journal System - Престиж вашего журнала в международных базах данных inDesigner - Разработка сайта - создание сайтов под ключ в веб студии Iqtisodiy taraqqiyot va tahlil - ilmiy elektron jurnali yuridik va jismoniy shaxslarning in-Academy - Innovative Academy RSC MENC LEGIS - Адвокатское бюро SPORT-SCIENCE - Актуальные проблемы спортивной науки GLOTEC - Внедрение цифровых технологий в организации MuviPoisk - Смотрите фильмы онлайн, большая коллекция, новинки кинопроката Megatorg - Доска объявлений Megatorg.net: сайт бесплатных частных объявлений Skinormil - Космецевтика активного действия Pils - Мультибрендовый онлайн шоп METAMED - Фармацевтическая компания с полным спектром услуг Dexaflu - от симптомов гриппа и простуды SMARTY - Увеличение продаж вашей компании ELECARS - Электромобили в Ташкенте, Узбекистане CHINA MOTORS - Купи автомобиль своей мечты! PROKAT24 - Прокат и аренда строительных инструментов