Жамият ва инновациялар –
Общество и инновации –
Society and innovations
Journal home page:
https://inscience.uz/index.php/socinov/index
Linguistic bases of creating a corpus of grammatical terms
Shakhnoza SULTANOVA
1
Alisher Navoi Tashkent State University of Uzbek Language and Literature
ARTICLE INFO
ABSTRACT
Article history:
Received March 2021
Received in revised form
20 March 2021
Accepted 15 April 2021
Available online
20 May 2021
This article discusses the problem of text alignment in a comparable
bilingual corpus and the establishment of translation equivalents of
terminological units extracted from a comparable corpus. The list of
potential terms is extracted from the subcorpuses of the Uzbek and
English languages using the corpus manager program, then the lexical
composition of the extracted terminological units is examined and
methods for establishing translation equivalents are proposed.
Learning grammar involves understanding the structure of a language,
including morphology, syntax, and other properties of words such as
their grammatical classes (verbs, nouns, etc.). Unlike lexicography,
grammar has no long tradition of empirical research. Until recently, little
attention has been paid to the study of how native speakers actually use
the grammatical resources of their languages.
2181-1415/© 2021 in Science LLC.
This is an open access article under the Attribution 4.0 International
(CC BY 4.0) license (https://creativecommons.org/licenses/by/4.0/deed.ru)
Keywords:
terminology,
definition of terms,
corpus of texts,
comparable corpus of texts,
translation,
bilingual lexicography, corpus
lexicography.
Grammatik atamalar korpusini yaratishning lingvistik asoslari
ANNOTATSIYA
Kalit so‘zlar:
terminologiya,
atamalar ta’rifi,
matnlar korpusi,
taqqoslanadigan matnlar
korpusi,
tarjima,
ikki tilli leksikografiya, korpus
leksikografiyasi.
Maqolada solishtirish mumkin bo‘lgan ikki tilli korpusdagi
matnlarni moslashtirish va taqqoslanadigan korpusdan ajratib olingan
terminologik birliklarning tarjima ekvivalentlarini o‘rnatish muammosi
muhokama qilinadi. Potentsial atamalar ro‘yxati korpus menejeri
dasturidan foydalangan holda o‘zbek va ingliz subkurslaridan ajratib
olinadi, so‘ng olingan terminologik birliklarning leksik tarkibi
o‘rganiladi va tarjima ekvivalentlarini o‘rnatish usullari taklif etiladi.
Grammatikani o‘rganish tilning tuzilishini, shu jumladan morfologiya,
sintaksis va so‘zlarning boshqa xususiyatlarini, masalan, ularning
grammatik sinflarini (fe’llar, ismlar va boshqalarni) tushunishni o‘z
ichiga oladi. Leksikografiyadan farqli o‘laroq, grammatika uzoq yillik
empirik tadqiqot an’analariga ega emas. So‘nggi paytgacha ona tilida
so‘zlashuvchilar o‘z tillarining grammatik boyliklaridan qanday
foydalanganliklarini o‘rganishga kam e’tibor berilardi.
1
Lecturer Alisher Navoi Tashkent state university of Uzbek language and literature. Tashkent, Uzbekistan.
Жамият ва инновациялар – Общество и инновации – Society and innovations
Special Issue – 4 (2021) / ISSN 2181-1415
814
Языковые основы создания корпуса грамматических терминов
АННОТАЦИЯ
Ключевые слова:
терминология,
определение терминов,
корпус текстов,
сопоставимый корпус
текстов,
перевод, двуязычная
лексикография,
корпусная лексикография.
В статье обсуждается проблема выравнивания текста в
сопоставимом двуязычном корпусе и установление
переводных эквивалентов терминологических единиц,
извлеченных
из
сопоставимого
корпуса.
Список
потенциальных терминов извлекается из-под корпусов
узбекского и английского языков с помощью программы
корпус-менеджер (corpus manager), затем исследуется
лексический состав извлеченных терминологических
единиц и предлагаются методы установления переводных
эквивалентов. Изучение грамматики включает понимание
структуры языка, включая морфологию, синтаксис и другие
свойства слов, такие как их грамматические классы
(глаголы, существительные и т.д.). В отличие от
лексикографии, грамматика не имеет давних традиций
эмпирических исследований. До недавнего времени
изучению того, как носители языка на самом деле
используют грамматические ресурсы своих языков,
уделялось мало внимания.
Корпоративная лингвистика – это раздел компьютерной лингвистики, который
разрабатывает общие принципы построения и использования лингвистических корпусов
(корпусов текстов) с использованием компьютерных технологий. Под лингвистическим
или лингвистическим корпусом текстов понимается большой машиночитаемый,
унифицированный, структурированный, размеченный, филологически компетентный
массив лингвистических данных, предназначенный для решения конкретных
лингвистических проблем. В настоящее время существует множество определений
понятия «корпус». Например, определение, данное в учебнике Э. Финеганом, гласит:
«Корпус – это репрезентативный набор текстов, обычно в машиночитаемом формате и
включающий информацию о ситуации, в которой текст был создан, например,
информацию о говорящем, автор, адресат или аудитория» [4]. Википедия определяет
корпуса как большие и структурированные наборы текстов (теперь обычно в электронной
форме), которые используются для статистического анализа и проверки гипотез,
проверки конкретных случаев или подтверждения языковых правил для определенных
областей [12]. T. Mc Enery и E. Wilson дают следующее определение: корпус – это
совокупность языковых фрагментов, выбранных в соответствии с четкими языковыми
критериями для использования в качестве языковой модели [9]. В.В. Рыков определяет
корпус текстов как набор текстов, основанный на логическом замысле, логической идее,
объединяющей эти тексты и воплощенной в правилах организации текстов в корпус,
алгоритме и программе для анализа корпуса текстов, идеологии и методология, связанная
с этим [10].
В определениях подчеркиваются основные черты современного корпуса текстов –
цель («логическая идея»), машиночитаемый формат, репрезентативность в результате
специальной
процедуры
отбора,
наличие
метаязыковой
информации.
Стандартизированное представление вербального материала на машинном носителе
Жамият ва инновациялар – Общество и инновации – Society and innovations
Special Issue – 4 (2021) / ISSN 2181-1415
815
позволяет использовать стандартные программы для его обработки. Возможность
создания и смысл использования корпусов определяется следующими предпосылками:
1)
достаточно большой (представительный) объем корпуса гарантирует
типичность данных и обеспечивает полноту изложения всего спектра языковых явлений;
2)
данные разного типа находятся в корпусе в естественной контекстной форме, что
создает возможность их всестороннего и объективного изучения;
3)
однажды созданный и подготовленный набор данных может использоваться
несколько раз разными исследователями и для разных целей.
В понятие «текстовый корпус» входит также система управления текстовыми и
лингвистическими данными, которую в последнее время чаще всего называют
английской corpus manager (корпус-менеджер). Это специализированная поисковая
система, которая включает в себя программное обеспечение для поиска данных в корпусе,
получения статистической информации и предоставления пользователю результатов в
удобной форме. Поиск в корпусе позволяет построить соответствие для любого слова -
список всех употреблений этого слова в контексте со ссылками на источник. Корпуса могут
использоваться для получения различных справочных материалов и статистических
данных о языковых и речевых единицах.
В частности, на основе корпусов можно получить данные о частотности словоформ,
лексем, грамматических категорий, проследить изменение частот и контекстов в разные
периоды времени, получить данные о совместной встречаемости лексических единиц и т.д.
Репрезентативный массив лингвистических данных за определенный период позволяет
изучить динамику процессов изменения лексического состава языка, проанализировать
лексико грамматические характеристики у разных жанров и у разных авторов.
Корпуса также призваны служить источником и инструментом для многомерных
лексикографических работ для подготовки различных исторических и современных
словарей. Данные корпуса можно использовать для построения и уточнения грамматик и
изучения языков. Области, упускаемые из виду в традиционных исследованиях, оказались
сильной стороной корпусных грамматических исследований, которые могут быть
применены к грамматике на уровне слова, предложения и дискурса. Здесь мы рассмотрим
проблему использования и функции морфологических характеристик, проанализировав
их распределение по регистрам. Используя корпус, можно соотнести распределение
морфологической характеристики со контекстами ее использования и лучше понять
функции, которые она выполняет. В учебнике Corpus Linguistics способ решения этой
проблемы
иллюстрируется
распределением
номинализаций
(производных
существительных) в трех регистрах. Статья посвящена методам анализа и установления
переводческих эквивалентов для сравнения данных, извлеченных из ключевых
информационных единиц двуязычного текстового корпуса единого двуязычного
сопоставимого корпуса - предметной области; решение проблемы в сроках.
Целью исследования данных корпуса является обеспечение двуязычного общения
между экспертами в конкретной предметной области, создателями и потребителями его
материальных и нематериальных объектов. Под корпусом текстов понимается
структурированный массив текстов на естественном языке в машиночитаемом формате,
доступный для обработки с помощью программного обеспечения, достаточно обширный
и представительный для проведения исследований.
Двуязычный корпус текста, охватывающий единую предметную область, содержит
примеры использования терминов, характерных для предметной области, в рамках
специального общения. Он признан проверенным программным средством,
Жамият ва инновациялар – Общество и инновации – Society and innovations
Special Issue – 4 (2021) / ISSN 2181-1415
816
используемым
в
исследованиях
терминологии,
управлении
двуязычными
терминологическими операциями и двуязычных терминологических словарях [7].
В настоящее время существует проблема извлечения информации из сопоставимых
двуязычных корпусов для дальнейшего исследования и обработки. Равный объем текста
на рабочем языке и выравнивание важны для обеспечения репрезентативности и
сопоставимости двуязычного корпуса. Среди двуязычных корпусов есть параллельные и
сопоставимые корпуса. Если параллельный корпус содержит оригинальные тексты и
тексты переводов, выровненные предложениями, тогда сопоставимый корпус содержит
тексты одной предметной области, объема и структуры, но не являются переводами друг
друга [3]. В сопоставимом корпусе возможно терминологическое согласование текстов
обоих подкорпусов, что подразумевает извлечение из текстов общих терминологических
единиц и словосочетаний и решение проблемы их перевода [2]. Следует особо отметить,
что уровни понимания нельзя рассматривать как последовательные стадии понимания.
Для любого уровня владения языком, кроме самого базового, может быть пройден любой
из вышеперечисленных уровней. Все зависит от отношения между системами «текст» и
«читатель». В практике обучения иностранному языку следует стремиться к тому, чтобы
учащиеся получали тексты, при чтении которых был бы самый высокий уровень
понимания.
Поэтому необходимо уделить должное внимание отбору текстов, то есть отеку
текста учебника. В противном случае чтение не доставит читателю удовольствия, а
превратится в тяжелый академический долг. В большинстве случаев остается возможным,
во-первых, сосредоточиться на лингвистических аспектах изучаемого материала
(например, предлагая студентам в качестве ответов термины, имеющие аналогичную
структуру). Во-вторых, адаптировать задание к уровню специальной подготовки учащихся
(например, облегчить его, предложив, в том числе, категорически неуместные ответы, тем
самым сузив круг вариантов) [1].
Многие единицы частотных словарей не являются терминологическими.
Нетермины составляют отрицательный словарь и должны быть удалены из словарей,
чтобы уменьшить размер списков слов. Негативный словарь включает определители,
вспомогательные глаголы, предлоги, союзы, местоимения, существительные собственные
и их производные. Кроме того, необходимо привести множество грамматических форм
одной лексической единицы, встречающейся в корпусе, к основной форме, то есть
провести
лемматизацию.
Чтобы
упростить
лемматизацию
и
сравнение
терминологических единиц, можно объединить производные термины с одним и тем же
корнем в отдельные сложные производные единицы. Все производные слова могут быть
объединены в словообразовательное гнездо как самую большую словообразовательную
единицу.
В
рамках
гнезда
можно
выделить
составляющие
его
сложные
словообразовательные единицы: словообразовательные парадигмы (парадигмы
существительных, парадигмы прилагательных) и словообразовательные цепочки [11].
Сравнение словообразовательных гнезд на двух языках ускорит поиск эквивалентов для
всех производных, обнаружит отсутствие терминов в терминологической системе одного
из языков и сделает выводы о лексическом составе лемматизированного списка терминов.
Причины неравномерного размера словарей кроются в развитой морфологической
системе узбекского языка и способности узбекских слов образовывать обширные
словообразовательные гнезда. Например, две словообразовательные цепочки «семантика
–сематизациялаш – сематизация» и «semantics – semantic – semanticize – semanticization»
Жамият ва инновациялар – Общество и инновации – Society and innovations
Special Issue – 4 (2021) / ISSN 2181-1415
817
формируются по одному и тому же принципу. Однако не все компоненты этих цепочек
представлены в кейсе. Например, узбекский глагол сематизациалаш не представлен в
корпусе, поэтому не часто встречается в научном дискурсе выбранной предметной
области. Но возвратный глагол представлен «сематизацииялаштириш», тогда как в
цепочке английских слов ему нет аналога, так как в английском языке идея повторения не
выражается специальными перегибами. В подкорпусе английского языка мы также не
наблюдаем
лексических
единиц,
подобных
узбекскому
«сематизациялаш
–
сематизациялаштириш». Кроме того, в подкорпусе узбекского языка можно отметить
множество производных единиц, заимствованных из русского языка, мотивированных
семантикой
слов,
таких
как
«психосемантика,
семантика-когнитив
и
семантикапрагматик».
В английском подкорпусе нет аналогов этим названиям и признакам. Единично-
мотивированные производные слова семантические, в английском подкорпусе всего три:
лексико-семантические n лексико-семантические, которые являются синонимами, и
несемантические семантические - семантические. Из анализа словарей можно сделать
вывод, что образование новых терминов путем слияния баз более характерно для научных
текстов на узбекском языке. Учитывая высокую частоту слова «semantic» в английском
языке, можно предположить, что оно часто встречается в терминологических фраз, а для
английского языка более типично выражать идею «слияния двух предметных областей»
посредством синтаксической связи. За счет основ и флексий, которые придают новое
значение производным словам, словообразовательные гнезда словаря шире, что влияет на
объем частотного словаря. Говоря о лексических единицах, обозначающих область знаний,
можно связать их высокий словообразовательный потенциал и способность образовывать
обширные словообразовательные гнезда с частотой их употребления и, как следствие, с
развитием данной области знаний в научный дискурс определенного языка. Выводы о
преобладании двухосновных единиц в узбекском языке справедливы и для других
частотных слов корпуса с высоким словообразовательным.
Как пара эквивалентов semantika – семантика, терминатор слова и термин являются
одними из самых частых в подкорпусе их языка. Оба слова мотивируют множество
производных, которые образуют огромные гнезда. Частота слова термин в узбекском
корпусе несколько выше, чем его эквивалент в английском подкорпусе. Но
словообразующее гнездо производящей основы намного больше, чем термин слово
«гнездо» из-за множества двухосновных производных. Поскольку одной из целей
исследования является изучение потенциала сопоставимых корпусов в установлении
переводческих эквивалентов, интересно сравнить наиболее часто встречающиеся слова
открытого класса в словарях на узбекском и английском языках. Принимая во внимание
тот факт, что пятьдесят наиболее часто встречающихся слов открытого класса в корпусе
являются, скорее всего, терминами [5], рассмотрим возможность установления
переводных эквивалентов между первыми 50 словами частотных словарей каждого
подкорпуса.
В выборке часто встречаются элементы распространенных словообразовательных
гнезд. И если английский эквивалент не был найден для конкретной узбекской
словоформы, он может быть соотнесен с другими словоформами, происходящими от той
же порождающей основы, что и предполагаемый английский эквивалент. Учитывая, что
значение термина раскрывается в контексте, а английское существительное, включая
терминологическое значение, склонно выступать в качестве модификатора ядра именной
Жамият ва инновациялар – Общество и инновации – Society and innovations
Special Issue – 4 (2021) / ISSN 2181-1415
818
фразы, можно сравнивать терминологические комбинации с лексическими единицами
словосочетания. выбранное гнездо в позиции ядер. Обратимся к тем словам в выборке, для
которых не было найдено эквивалентов. Примечательно, что почти все узбекские слова
имеют эквиваленты, за исключением некоторых единиц. В соответствии с
существующими методами классификации терминов, например, по частям речи и по сфере
распространения
[6; 8], остальные слова можно определить как:
–
общенаучные термины-глаголы (определять, вести, соотносить, соотносить);
–
общенаучные термины существительных (наука, знак, имя, мир, значение, вопрос,
выражение, проблема, предмет, составляющая, личность);
–
межотраслевые термины существительных (лексика, ботаника).
Наличие этих слов в корпусе объясняется выделенными общенаучными
терминами, которые могут одновременно принадлежать не только к терминологическим
системам разных наук, но и к разным языкам специального назначения (АОЦ) [8], что
объясняет их высокую частотность. В выборке можно выделить термины, относящиеся к
терминологическим системам, не являющимся предметом данного исследования
(ботаника). Это связано с тем, что большая часть текстов в корпусе посвящена изучению
терминологии, а терминологические системы других наук являются материалом для
изучения авторами текстов. Термины из систем терминологии других наук приведены в
текстах в качестве примеров, иллюстрирующих исследования авторов. В большинстве
ESPS именные термины преобладают над глагольными, за исключением некоторых
текстов по прикладным наукам, например, инженерным, военным, геологическим [6].
На основании лексического состава разных корпусов можно сделать вывод, что
развитие терминологических систем в разных языках, описывающих единую предметную
область, неодинаково. Тем не менее, разработка процедур поиска эквивалентов в
двуязычный сопоставимый корпус показал, что выравнивание в сопоставимый корпус по
срокам возможно. Классификация терминов по областям их применения позволяет делать
дальнейшие выводы о терминологическом значении терминологических словосочетаний,
влиять на их определение. Термины, извлеченные из сопоставимого корпуса, могут
использоваться для составления и сравнения терминологических систем и дальнейшей
лексикографии.
БИБЛИОГРАФИЧЕСКИЕ ССЫЛКИ:
1.
Бакирова Х.Б. Преподавание терминологии на иностранном языке в
неязыковых университетах. Международный журнал дискурса об инновациях.
Интеграция и образование. Том: 01 Выпуск: 01. 2020. http://summusjournals.uz
/index.php/ijdiie.
2.
Беляева Л.Н. Лингвистические технологии в современном сетевом
пространстве: лингвист в индустрии локализации: монография. Книжный Дом,
2016. – С. 134.
3.
Дельпеч Э., Дайл Б. Работа с лексикой, полученной из сопоставимых корпусов:
проверка и обмен // Труды 9-й конференции по терминологии и инженерии знаний.
Фионтар: Дублинский городской университет, 2010. – С. 229–223.
4.
Финеган Э. ЯЗЫК: структура и использование. – Нью-Йорк: издатели
колледжа Харкорт Брейс, 2004. Фунг П. Поиск переводов терминологии из
Жамият ва инновациялар – Общество и инновации – Society and innovations
Special Issue – 4 (2021) / ISSN 2181-1415
819
непараллельных корпусов. – URL: http://www.cs.columbia.edu/nlp/papers/1997/
fung_mckeown_97.pdf.
5.
Герд А.С. Введение в изучение языка для специальных целей: учебное
пособие. Филологический факультет, 2011. – С. 60.
6.
Хуршид А., Роджерс М. Управление терминологией: корпусный подход.
URL: http: //www.mt- archive.info/90/Aslib-1992-Ahmad.pdf.
7.
Лейчик В.М. Терминология: предмет, методы, структура. 3-е изд. М.:
Издательство ЛКИ, 2007. – С. 256.
8.
Mc Enery T., Wilson A. Corpus Linguistics. – Эдинбург: Издательство
Эдинбургского университета, 2001.
9.
Рыков В.В. Корпус текстов как реализация объектно-ориентированной
парадигмы // Материалы 9.
10.
Международного семинара «Диалог-2002». – М.: Наука, 2002.
11.
Тихонов А.Н. Лексическое гнездо в современном русском языке:
монография. Елец, 2006. 270 с. Википедия – http://len.wikipedia.org/wiki/.
12.
Niyazova G.; Raupova L. Основные признаки и причины популярности
детективного жанра. ОИ 2021. 2. – С. 515–524.
