КОРПУСНОЕ ИССЛЕДОВАНИЕ ТЕКСТОВ НАРОДНОГО ЭПОСА НА ОСНОВЕ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

Annotasiya

В статье комплексно рассматриваются научно-методические подходы к анализу текстов узбекских народных эпосов на основе компьютерной лингвистики и корпусной лингвистики. Узбекские народные эпосы, являясь важной частью национальной культуры, ориентированы на анализ их языковой структуры и содержательнoго богатства путем раскрытия лексических, морфологических, синтаксических и семантических особенностей языка. В исследовании рассматриваются процессы создания параллельного корпуса на основе текстов эпосов «Алпомиш», «Горугли», «Кунтугмиш» и других, оцифровка текстов и автоматизированный анализ с использованием современных программных средств. Корпусная лингвистика используется для глубокого изучения языковых особенностей, стилистических стилей и культурного значения эпических текстов. В то же время в исследовании подчеркивается роль цифровых технологий в сохранении, анализе и продвижении эпосов на международном уровне. Статья призвана наметить направления будущих исследований и закрепить место эпосов узбекской литературы в мировых лингвистических исследованиях.

Manba turi: Konferentsiyalar
Yildan beri qamrab olingan yillar 2022
inLibrary
Google Scholar
Chiqarish:
86-90
0

Кўчирилди

Кўчирилганлиги хақида маълумот йук.
Ulashish
Унарова , Д. . (2025). КОРПУСНОЕ ИССЛЕДОВАНИЕ ТЕКСТОВ НАРОДНОГО ЭПОСА НА ОСНОВЕ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. Наука и инновации в системе образования, 4(9), 86–90. Retrieved from https://inlibrary.uz/index.php/sies/article/view/123386
0
Iqtibos
Crossref
Сrossref
Scopus
Scopus

Annotasiya

В статье комплексно рассматриваются научно-методические подходы к анализу текстов узбекских народных эпосов на основе компьютерной лингвистики и корпусной лингвистики. Узбекские народные эпосы, являясь важной частью национальной культуры, ориентированы на анализ их языковой структуры и содержательнoго богатства путем раскрытия лексических, морфологических, синтаксических и семантических особенностей языка. В исследовании рассматриваются процессы создания параллельного корпуса на основе текстов эпосов «Алпомиш», «Горугли», «Кунтугмиш» и других, оцифровка текстов и автоматизированный анализ с использованием современных программных средств. Корпусная лингвистика используется для глубокого изучения языковых особенностей, стилистических стилей и культурного значения эпических текстов. В то же время в исследовании подчеркивается роль цифровых технологий в сохранении, анализе и продвижении эпосов на международном уровне. Статья призвана наметить направления будущих исследований и закрепить место эпосов узбекской литературы в мировых лингвистических исследованиях.


background image

SCIENCE AND INNOVATION IN THE

EDUCATION SYSTEM

International scientific-online conference

86

КОРПУСНОЕ ИССЛЕДОВАНИЕ ТЕКСТОВ НАРОДНОГО ЭПОСА НА

ОСНОВЕ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

Унарова Дилафруз Абдимаджит дочь

Узбекско-Финский педагогический институт

независимый исследователь

dilafruzunarov1@gmail.com

https://doi.org/10.5281/zenodo.15907456

Аннотация:

В статье комплексно рассматриваются научно-

методические подходы к анализу текстов узбекских народных эпосов на
основе компьютерной лингвистики и корпусной лингвистики. Узбекские
народные эпосы, являясь важной частью национальной культуры,
ориентированы на анализ их языковой структуры и содержательнoго
богатства

путем

раскрытия

лексических,

морфологических,

синтаксических и семантических особенностей языка. В исследовании
рассматриваются процессы создания параллельного корпуса на основе
текстов эпосов «Алпомиш», «Горугли», «Кунтугмиш» и других, оцифровка
текстов и автоматизированный анализ с использованием современных
программных средств. Корпусная лингвистика используется для
глубокого изучения языковых особенностей, стилистических стилей и
культурного значения эпических текстов. В то же время в исследовании
подчеркивается роль цифровых технологий в сохранении, анализе и
продвижении эпосов на международном уровне. Статья призвана
наметить направления будущих исследований и закрепить место эпосов
узбекской литературы в мировых лингвистических исследованиях.

Ключевые слова:

народные эпосы, компьютерная лингвистика,

корпусная лингвистика, параллельный корпус, лексический анализ,
морфологический анализ, синтаксический анализ, семантический анализ,
узбекская литература, цифровые технологии, анализ текста, Алпамыш,
Гёроглу, Кунтугмиш, лингвистика, машинное обучение.

Узбекский народный эпос — один из важнейших и богатейших

жанров узбекской литературы и культуры. Это уникальные памятники,
воплощающие историческое сознание, мировоззрение, нравственные
ценности и языковые особенности народа. Эти эпосы складывались на
протяжении веков как устные произведения, передавались из поколения в
поколение и служат важным источником для понимания исторического
развития узбекского языка. Такие эпосы, как «Алпомиш», «Горугли»,
«Кунтугмиш», имеют не только литературную и эстетическую ценность,
но и важны для изучения лексического богатства, морфологического


background image

SCIENCE AND INNOVATION IN THE

EDUCATION SYSTEM

International scientific-online conference

87

строя, синтаксических особенностей и стилистических особенностей
языка. В последние годы достижения в области компьютерной
лингвистики и корпусной лингвистики позволили провести углубленный
и систематический анализ этих текстов. В статье широко освещаются
научные подходы к изучению текстов узбекских эпосов на основе
корпусной лингвистики, а также рассматривается роль современных
цифровых технологий в этом процессе. Узбекские народные эпосы с их
сложной структурой и многогранным содержанием представляют богатое
поле для исследований в области лингвистики и литературоведения.
Тексты былин часто существуют в различных вариантах, что создает
определенные трудности при их лингвистическом анализе. Например,
эпическая поэма «Алпомиш» была написана в разных регионах: Хорезме,
Кашкадарье, Фергане, и имела свои диалектные и стилистические
различия. Эти варианты являются важным источником для изучения
диалектного многообразия языка, архаичной лексики и грамматических
форм. В то же время развитие эпоса в устной форме привело к появлению
в его текстах большого количества синонимов, эпитетов, метафор и других
художественных приемов, что делает его еще более интересным для
лингвистического анализа. Развитие компьютерной лингвистики, в
частности методов корпусной лингвистики, открыло новые возможности
в анализе эпических текстов. Корпусная лингвистика позволяет собирать,
систематизировать и автоматизированно анализировать большие объемы
языкового материала. Данный метод позволяет проводить лексический,
морфологический, синтаксический и семантический анализ текстов, а
также определять их статистические свойства. Для проведения
корпусного исследования образцов устной литературы, таких как
узбекские народные эпосы, необходимо сначала оцифровать тексты и
создать параллельный корпус. Параллельный корпус позволяет
сравнивать тексты на разных вариантах одного и того же языка или на
разных языках. Например, собрав в параллельный корпус хорезмский и
ферганский варианты эпоса «Алпомиш», можно выявить их лексические и
стилистические различия. Этот процесс важен для глубокого анализа
языковых особенностей былин и изучения их исторического развития.

Методологические основы корпусной лингвистики дают ряд

преимуществ при анализе узбекских народных эпосов. Во-первых, с
помощью корпуса определяется лексическое богатство текстов. Например,
анализируется частотность слов, используемых в тексте эпоса «Горуглы»,


background image

SCIENCE AND INNOVATION IN THE

EDUCATION SYSTEM

International scientific-online conference

88

синонимические строки, доля архаичной лексики. В этом процессе
используются скрипты, написанные на языке программирования Python, и
библиотеки, такие как NLTK (Natural Language Toolkit). NLTK используется
для определения частотности слов, анализа морфем и синтаксических
связей. Во-вторых, морфологический анализ анализирует словоформы,
аффиксы и грамматические структуры, используемые в былинах.
Например, изучаются типы глагольных форм, используемые в тексте эпоса
«Кунтугмиш», и их синтаксические функции. В-третьих, синтаксический
анализ позволяет нам изучать структуру предложений, синтаксические
связи и стилистические особенности былин. В результате этих анализов
языковые особенности былин оцениваются не только качественно, но и
количественно.

В качестве практической части исследования будет подробно

рассмотрен процесс создания корпуса на примере эпоса «Алпомиш».
Эпическая поэма «Алпомиш» существует в различных вариантах:
хорезмийском, кашкадарьинском и ферганском. Каждый из этих
вариантов имеет свои лексические и стилистические характеристики.
Например, хорезмский вариант использует больше архаичных слов и
диалектных форм, тогда как ферганский вариант имеет характеристики,
более близкие к литературному языку. При создании параллельного
корпуса тексты этих вариантов были оцифрованы и размечены в формате
XML или TEI (Text Encoding Initiative). Эти форматы удобны для машинного
анализа текстов и помогают идентифицировать лексические и
грамматические единицы. Исследование включало автоматизированный
анализ текста с использованием скриптов, написанных на языке
программирования Python. Например, частота слов, морфемный анализ и
синтаксические связи определялись с помощью NLTK и библиотеки SpaCy.
Кроме того, проанализирована частотность использования эпитетов,
метафор и других стилистических приемов в эпических текстах,
определено их место в художественном стиле.

Одним из преимуществ корпусной лингвистики при анализе эпосов

является то, что она позволяет проводить статистический анализ текстов.
Например,

проанализирована

частотность

лексических

единиц,

используемых в тексте эпоса «Горуглы», их отличия от литературного
языка, выявлены его диалектные особенности. В то же время корпус
помогает выявить различия и сходства между разными версиями эпоса.
Например, были проанализированы различия лексических единиц,


background image

SCIENCE AND INNOVATION IN THE

EDUCATION SYSTEM

International scientific-online conference

89

используемых в тексте эпоса «Кунтугмиш», с литературным языком,
изучены его диалектные и стилистические особенности. В этом процессе
используются алгоритмы машинного обучения, такие как Word2Vec,
которые помогают определить семантическую близость слов. Например,
был проанализирован кластер слов, связанных с понятием «героизм» в
тексте эпоса «Алпомиш», и проведено его сравнение с его эквивалентами в
других

эпосах.

Семантический

анализ

важен

для

изучения

содержательности эпосов. Анализируется лексическое выражение
ключевых понятий, используемых в былинах, таких как героизм,
патриотизм, любовь, справедливость, верность. В этом процессе
используются алгоритмы машинного обучения, в частности методы
векторного анализа слов. Например, в тексте эпоса «Горуглы» были
выявлены семантические кластеры слов, связанных с понятием
«патриотизм», и проведено их сравнение с их эквивалентами в других
эпосах. Этот анализ способствует более глубокому пониманию
содержательной структуры эпосов и их культурного значения.
Использование цифровых технологий при анализе эпосов не только
углубляет лингвистический анализ, но и имеет важное значение для их
сохранения и доведения до широкой публики. Например, оцифрованные
эпические тексты могут быть размещены в Интернете в качестве
открытых источников, что повышает их доступность для исследователей,
студентов и широкой общественности. В то же время, сравнивая
различные версии былин, можно глубже понять их историческое и
культурное значение. Например, были проанализированы различия между
разными вариантами текста эпоса «Алпомиш», выявлены его
историческое развитие и региональные особенности.

В заключение исследования можно отметить, что корпусное

исследование узбекских народных эпических текстов с использованием
компьютерной лингвистики открывает новые возможности для анализа
их языковых особенностей, стилистических стилей и культурной
значимости.

Корпусная

лингвистика

анализирует

лексическую,

морфологическую, синтаксическую и семантическую структуру эпосов,
дополнительно проясняя их литературную и культурную ценность. В
дальнейшем, применяя этот подход к другим образцам устной литературы
и интегрируя его с международными исследованиями, можно будет еще
больше укрепить мировую роль эпосов в узбекской литературе. В то же
время дальнейшее развитие цифровых технологий и популяризация


background image

SCIENCE AND INNOVATION IN THE

EDUCATION SYSTEM

International scientific-online conference

90

эпических текстов как открытых источников обеспечит их сохранение для
будущих поколений.

Литературы:

1.

Абджалова, М. и Узокова, М. Создание мобильного приложения

словарей с использованием Python, Матлатипов, С. и Матлатипов, Г. Набор
данных классификации текстов и анализ для узбекского языка. Препринт
arXiv, 2022, стр. 126-136.
2.

Рустамов, Д. Корпусный анализ социально апроприированной

лексики (на примере современных драм). Ташкент: Изд-во Национального
университета Узбекистана, 2020, с. 78-92.
3.

Шарипов М., Куриезов Э., Юлдашев О. и Собиров О. УзбекистанTagger:

основанный на правилах POS-тегер для узбекского языка. ПРОБЛЕМЫ,
РЕШЕНИЯ, ПЕРСПЕКТИВЫ, 2021, стр. 232-243.
4.

Зарипбоева, Н. Компьютерная лингвистика — раздел искусственного

интеллекта. Ташкент: Изд-во Национального университета Узбекистана,
2021, с. 15-28.
5.

Зарипбоева, Н. Стандарты создания терминологических баз данных.

Ташкент: Изд-во Национального университета Узбекистана, 2020, с. 33-47.

Bibliografik manbalar

Абджалова, М. и Узокова, М. Создание мобильного приложения словарей с использованием Python, Матлатипов, С. и Матлатипов, Г. Набор данных классификации текстов и анализ для узбекского языка. Препринт arXiv, 2022, стр. 126-136.

Рустамов, Д. Корпусный анализ социально апроприированной лексики (на примере современных драм). Ташкент: Изд-во Национального университета Узбекистана, 2020, с. 78-92.

Шарипов М., Куриезов Э., Юлдашев О. и Собиров О. УзбекистанTagger: основанный на правилах POS-тегер для узбекского языка. ПРОБЛЕМЫ, РЕШЕНИЯ, ПЕРСПЕКТИВЫ, 2021, стр. 232-243.

Зарипбоева, Н. Компьютерная лингвистика — раздел искусственного интеллекта. Ташкент: Изд-во Национального университета Узбекистана, 2021, с. 15-28.

Зарипбоева, Н. Стандарты создания терминологических баз данных. Ташкент: Изд-во Национального университета Узбекистана, 2020, с. 33-47.