Большие данные в лингвистических исследованиях

Г Вильданова

doi:10.71337/inlibrary.uz.digteclaw.135719

Авторы

Г Вильданова
Казанский инновационный университет имени В. Г. Тимирясова

Биография автора

Г Вильданова, Казанский инновационный университет имени В. Г. Тимирясова

кандидат филологических наук, доцент

DOI:

https://doi.org/10.71337/inlibrary.uz.digteclaw.135719

Ключевые слова:

большие данные корпус дискурс перевод языковая экспертиза

Аннотация

В статье рассматривается потенциал Big Data (Большие данные) в современных лингвистических исследованиях дискурса. Анализируются виды корпусов и инструментарий корпусной лингвистики для изучения различных аспектов и видов дискурса. Рассматриваются ресурсы параллельного корпуса Национального корпуса русского языка, который позволяет выявить актуальные переводческие соответствия для исследуемых лексических единиц, в частности безэквивалентной лексики и лексем, осложненных национально культурными коннотациями. Помимо этого, данные параллельного корпуса Национального корпуса русского языка позволяют обнаружить особенности передачи авторских неологизмов в переводе и выявить релевантные стратегии перевода прагматического потенциала текстовых элементов разного уровня. В статье обращается к ресурсам корпус-менеджера AntConc, который представляется полезным инструментом применительно к языковой экспертизе и исследованию политического дискурса, в частности изучению словоупотребления и коммуникативного инструментария определенных политиков и общественных деятелей. На основе полученных результатов представлены рекомендации по использованию Больших данных в различных изысканиях лингвистического плана в соответствии с целью и задачами, поставленными исследователями дискурса.

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

157

22. Pedrouzo G. L’archivage numérique dans la sphère publique, les enjeux d’une

législation annoncée // Revue française d’administration publique. 2014. № 151-152.
Pр. 825-837.

23. Serlet M. Archivage électronique et analyse de risque : les nouveaux défis de

l’archiviste // Memoires de stage. 2009. № 3. Pр. 14-46.

Г. А. Вильданова,

кандидат филологических наук, доцент,

Казанский инновационный университет

имени В. Г. Тимирясова

БОЛЬШИЕ ДАННЫЕ В ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЯХ

Аннотация.

В статье рассматривается потенциал Big

Data (Большие дан-

ные) в современных лингвистических исследованиях дискурса. Анализируются
виды корпусов и инструментарий корпусной лингвистики для изучения различ-
ных аспектов и видов дискурса. Рассматриваются ресурсы параллельного корпуса
Национального корпуса русского языка, который позволяет выявить актуальные
переводческие соответствия для исследуемых лексических единиц, в частности
безэквивалентной лексики и лексем, осложненных национально культурными
коннотациями. Помимо этого, данные параллельного корпуса Национального кор-
пуса русского языка позволяют обнаружить особенности передачи авторских нео-
логизмов в переводе и выявить релевантные стратегии перевода прагматического
потенциала текстовых элементов разного уровня. В статье обращается к ресур-
сам корпус-менеджера AntConc, который представляется полезным инструментом
применительно к языковой экспертизе и исследованию политического дискурса,
в частности изучению словоупотребления и коммуникативного инструментария
определенных политиков и общественных деятелей. На основе полученных ре-
зультатов представлены рекомендации по использованию Больших данных в раз-
личных изысканиях лингвистического плана в соответствии с целью и задачами,
поставленными исследователями дискурса.

Ключевые слова

: большие данные, корпус, дискурс, перевод, языковая

экспертиза

BIG DATA IN LINGUISTIC RESEARCH

Abstract.

The article discusses the potential of Big Data using in modern linguistic

studies of discourse. The author analyzes the types of corpora and tools of corpus linguistics
to examine various aspects and types of discourse. The paper considers the resources
of the parallel corpora of the National Corpus of the Russian language, which helps to
identify relevant translation equivalents to the lexical units under study, in particular
equivalent lacking vocabulary and lexemes with national cultural connotations. The
data of the parallel corpus of the National Corpus of the Russian Language also makes it
possible to detect the specific features of author’s neologisms translation and to identify

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

158

relevant strategies for translating the pragmatic potential of diverse text elements. The
author considers the resources of the corpus-manager AntConc, which is a useful tool
in linguistic expertise and in political discourse study, in particular, the study of word
usage and communicative resources of certain politicians and public figures. Based on
the results obtained, the author presents recommendations on the Big Data usage in
various linguistic studies in accordance with the goal and objectives set by discourse
researchers.

Keywords

:

Big Data, corpus, discourse, translation, language examination

Введение.

В фокусе данной работы – потенциал Big

Data (Большие дан-

ные) в современных лингвистических исследованиях различных видов дискурса.
Интерес к данной проблеме обусловлен открывающимися перспективами иссле-
дования проблем разного уровня, возможностью анализа обширных эмпириче-
ских данных и существенной экономии времени и усилий современного исследо-
вателя в области языка. Более того, в настоящее время большие данные становятся
обязательным инструментом научно-исследовательской деятельности лингвиста.
В рамках данной публикации мы обращаемся к собственному опыту применения
корпусов при изучении особенностей перевода национально маркированной лек-
сики, авторских неологизмов и рассмотрения специфики риторики политических
деятелей.

Методика.

Основным методом выступает анализ корпусных данных полу-

ченных в результате обработки текстов определенными корпус-менеджерами.
Следует отметить тот факт, что в соответствии с целью исследования привлека-
ются различные виды корпусов и задействуется определенный инструментарий
корпусной лингвистики. Для изучения переводческого аспекта представляется
целесообразным обращение к ресурсам параллельного корпуса Национального
корпуса русского языка, который позволяет выявить актуальные переводческие
соответствия для исследуемых лексических единиц, в частности безэквивалент-
ной лексики и лексем, осложненных национально культурными коннотациями [1].
По мнению В. П. Захарова, НКРЯ не является исчерпывающим источником эм-
пирических данных, и исследователь предлагает привлекать такие инструменты
и сопутствующие им программные средства, как корпус русских текстов системы
Sketch Engine, корпус русских текстов Araneum Russicum Maius из семейства псев-
допараллельных корпусов Aranea Университета им. А. Коменского в Братиславе.
Важным фактором является объем корпусов, в частности «объем основного корпу-
са НКРЯ составляет 230 млн словоупотреблений, русскоязычный Araneum Maius
насчитывает 1 200 млн токенов (около 1 000 млн текстоформ), ruTenTen 2011из
Sketch Engine имеет объем более 18 млрд токенов (14,5 млрд текстоформ). Самый
же большой на сегодняшний день корпус русского языка – это корпус русских
книг Google books Ngram Viewer, который содержит 591 310 текстов общим объе-
мом более 67млрд словоупотреблений» [2. С. 83].

Другим любопытным инструментом корпусной лингвистики является кор-

пус-менеджер AntConc, который предназначен для обработки корпусов первого
порядка, предоставляет исследователю свободу в отборе дискурса для анализа

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

159

и позволяет производить анализ данных незарегистрированных в национальных
корпусах [3, 4]. Полагаем, что данный корпус-менеджер представляется полезным
инструментом применительно к языковой экспертизе и исследованию определен-
ного вида дискурса, в частности изучению словоупотребления и коммуникативно-
го речевого поведения определенных политиков и общественных деятелей.

Основная часть.

Прежде всего, отметим, что инструментарий корпусной

лингвистики плодотворно исследуется и подробно описан отечественными и за-
рубежными учеными [2, 4, 5, 6, 7]. Диапазон ресурсов корпусов обширен и вари-
ативен, в распоряжении современного исследователя инструменты, позволяющие
произвести количественную и качественную экспертизу языковых соответствий.
Выбор инструмента определяется целью научного изыскания, а корпус-менеджер
может выступать как основным, так и второстепенным источником эмпирических
данных. Опираясь на наш опыт анализа корпусных данных, представляется целе-
сообразным осветить потенциал больших данных в переводческой деятельности
и языковой экспертизе.

В переводческой практике мы часто сталкиваемся с проблемой эквивалент-

ной передачи нестандартных языковых единиц (лакун, реалий, окказионализмов,
идиом) и здесь полезным ресурсом становится параллельный корпус, содержащий
оригиналы и переводы художественных текстов и позволяющий выявить акту-
альные межязыковые соответствия. В частности, данные параллельного корпуса
Национального корпуса русского языка позволяют обнаружить особенности пе-
редачи лакун в переводе и выявить релевантные стратегии перевода прагматиче-
ского потенциала текстовых элементов разного уровня. Разумеется, помимо это-
го, важными источниками эмпирических данных являются корпуса иностранных
(Британский национальный корпус, Американский национальный корпус и др.)
и отечественных национальных языков (в частности, татарский национальный
корпус «Туган тел»), которые содержат тексты различных жанров и миллионы
словоупотреблений, дающих представление о современном состоянии исследуе-
мой языковой системы и особенностях развития литературной нормы языкового
коллектива.

Яркой иллюстрацией эффективности параллельного корпуса могут послу-

жить предпринятые нами исследования перевода таких лексических единиц, как
авторские неологизмы [8], лакуны американской культуры и зооморфной метафо-
ры [9]. Опираясь на полученные данные, нам, в частности, удалось обнаружить,
что при переводе произведений В. Пелевина переводчики стараются калькиро-
вать окказионализмы и часто переводные соответствия не передают весь колорит
и двусмысленность значений, присущих оригинальным творческим неологизмам
писателя [8]. Любопытным представляется опыт перевода лакун, в частности
американской культуры: одним из наиболее сложных является кулинарная сфера
и НКРЯ демонстрирует вариативность подхода к передаче лакунарности. К при-
меру, такой десерт как «брауни» (brounie) получает разнообразные трактовки
в переводе, начиная от транскрипционной передачи «брауни» и функционального
аналога «

шоколадное

печенье, шоколадный

кекс» и заканчивая «шоколадным мо-

роженым» [1].

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

160

Особый интерес представляет изучение коннотаций зооморфных метафор

на основе НКРЯ: анализ переводных соответствий обнаруживает возникновение
пейоративной оценки в результате метафорического переноса «животное-чело-
век» и отсутствие негативных/позитивных коннотаций у коррелята зоонима в язы-
ке перевода [9]. Данные выводы опираются на количественные данные, Однако
думается, что более важной становится консультативная функция параллельного
корпус-менеджера – переводчик получает доступ к переводческому опыту переда-
чи культурно маркированных единиц в различных контекстах, что позволяет ему
уверенно выбрать то или иное решение переводческой дилеммы. Более того, кор-
пусные данные становятся фундаментальной основой для разработки переводче-
ских стратегий и учебно-методических рекомендаций.

Следует отметить обширные статистические возможности корпус-менедже-

ра: исследователь получает доступ к важным количественным данным, наглядно
представляющим основные характеристики стиля речи писателя, героя произведе-
ния, политика, общественного деятеля и т. п. В этой связи заслуживает внимание
корпус-менеджер AntConc, который предназначен для обработки корпусов перво-
го порядка, предоставляет исследователю свободу в отборе дискурса для анализа
и позволяет производить анализ данных незарегистрированных в национальных
корпусах. Данный инструмент позволяет лингвисту самому отбирать анализируе-
мый языковой материал, сужает объект исследования и становится инструментом
языковой экспертизы. В частности, потенциал AntConc был эффективно задей-
ствован при анализе риторики американского президента Д. Трампа [10].

Для целей нашего исследования в корпус-менеджер были загружены вы-

ступления политика в период с февраля по август 2020 года (стенографии
11 пресс-конференций общим объемом 7:12:15 часов, 77 987 слов, 443 127 знаков),
что позволило обнаружить «ограниченность словарного запаса, бравирование
простоватостью и невежеством, самопрезентация как душевного, безыскусного
и понятного простому народу человека» [10. С. 50]. Полученные данные наглядно
демонстрируют особенности идиолекта американского президента, в частности
скудность эпитетов, преобладание доступных для понимания лексических еди-
ниц, отсутствие книжной лексики (рис. 1.). Данная диаграмма показательно иллю-
стрирует умение политика говорить с рядовым избирателем, его коммуникатив-
ную интуицию и популизм [10].

Так как целью исследования была именно короновирусная риторика аме-

риканского президента выступления политика, были проанализированы с точки
зрения частотности упоминания темы COVID и лексических единиц, используе-
мых Д. Трампом для обозначения короновирусной инфекции. Корпус-менеджер
AntConc наглядно продемонстрировал рост дисфемистичности и дискриминаци-
онного характера номинаций, целью которых было подчеркнуть предполагаемый
источник COVID-инфекции, сместить акцент, переключить внимание обществен-
ности с промахов американского здравоохранения на «заокеанского недруга», об-
винить и высмеять КНР (вспомним уничижительный и ироничный окказионализм
KungFlu) (рис. 2). В этой связи, смело можно утверждать, что корпус-менеджер
AntConc является ценным инструментом при анализе дискурсивных стратегий.

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

161

Рис. 1. Частотность эпитетов в речи Д. Трампа

Рис. 2. Динамика номинативного варьирования короновирусной инфекции

в выступлениях Д. Трампа

Таким образом, большие данные становятся неотъемлемой частью языко-

вой экспертизы, предоставляют убедительные и иллюстративные данные для ин-
терпретации и прогнозирования в исследованиях политического дискурса. И, по
нашему глубокому убеждению, корпусные методы должны взаимодействовать
с другими методиками для достижения наиболее объемной и репрезентативной
картины итогов исследования.

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

Мультидисциплинарные (неюридические) аспекты цифровой трансформации

Multidisciplinary (Non-Legal) Aspects оf Digital Transformation

162

Заключение.

В результате нашего исследования можно заключить

следующее:

1. В современной лингвистике понятие большие данные (Big

Data) актуали-

зируется в форме различных корпусов, которые становятся важным инструментом
в научном исследовании.

2. Корпус-менеджеры позволяют решить разнообразные цели и задачи линг-

вистического исследования и предоставляют обширные эмпирические и стати-
стические данные.

3. Современные корпус-менеджеры демонстрируют высокую эффектив-

ность: исследователь в области лингвистики получает доступ к данным, обработ-
ка которых ранее была трудоемким и длительным процессом.

Можно вполне обоснованно утверждать, что применение больших данных

становится необходимым и неизбежным в различных изысканиях лингвистиче-
ского плана.

Список литературы

1. НКРЯ – Национальный корпус русского языка. URL: ruscorpora.ru
2. Захаров В. П. Лингвистика больших корпусов // Компьютерная лингвисти-

ка и вычислительные онтологии. СПб.: ИТМО, 2015. С. 82-93.

3. AntConc: A freeware corpus analysis toolkit for concordancing and text analy-

sis. URL: https://www.laurenceanthony.net/software/antconc

4. Park, S. A corpus linguistics course for international students // International

Conference of Korean Association for Corpus Linguistic, Kyung Hee University, Seoul,
South Korea, 2019.

5. Vaughan E., O’Keeffe A. Corpus Analysis / E. Vaughan, A. O’Keeffe // The

International Encyclopedia of Language and Social Interaction. John Wiley & Sons,
2015.

6. Pérez-Paredes P., Sánchez-Tornel M., Alcaraz Calero J. M. The role of corpus

linguistics in developing innovation in data-driven language learning / P. Pérez-Paredesa,
М. Sánchez-Tornela, J.M. Alcaraz Calero // Congreso Internacional de Innovación
Docente, Cartagena, 2011.

7. Allen W. Making corpus data visible: visualising text with research intermediar-

ies // Corpora. 2018. Vol. 12. Pр. 459-482.

8. Вильданова Г. А., Хамидуллина Д. С. Анализ функционирования и пе-

ревода авторских неологизмов в произведениях В.О. Пелевина // Проблемы те-
ории и методики профессионального лингвистического образования: материалы
IV международной научно-практической конференции, Казань, 15 апреля 2022 г.
Казань: Изд-во «Познание», 2022. С. 279-284.

9. Вильданова Г. А. Национально маркированая зооморфная метафора в пе-

реводе // Теория языка и межкультурная коммуникация. 2023. № 1(48). С. 87-99.

10. Вильданова Г. А. COVID-риторика американского политического дискур-

са // Теория языка и межкультурная коммуникация. 2020. № 3. С. 43-54.

Библиографические ссылки

НКРЯ - Национальный корпус русского языка. URL: ruscorpora.ru

Захаров В. П. Лингвистика больших корпусов//Компьютерная лингвистика и вычислительные онтологии. СПб.: ИТМО, 2015. С. 82-93.

AntConc: A freeware corpus analysis toolkit for concordancing and text analysis. URL: https://www.laurenceanthony.net/software/antconc

Park, S. A corpus linguistics course for international students // International Conference of Korean Association for Corpus Linguistic, Kyung Hee University, Seoul, South Korea, 2019.

Vaughan E., O’Keeffe A. Corpus Analysis / E. Vaughan, A. O’Keeffe // The International Encyclopedia of Language and Social Interaction. John Wiley & Sons, 2015.

Pёrez-Paredes P., Sanchez-Tornel M., Alcaraz Calero J. M. The role of corpus linguistics in developing innovation in data-driven language learning/P. Perez-Paredesa, M. Sanchez-Tornela, J.M. Alcaraz Calero // Congreso Internacional de Innovation Docente, Cartagena, 2011.

Allen W. Making corpus data visible: visualising text with research intermediaries // Corpora. 2018. Vol. 12. Pp. 459-482.

Вильданова Г. А., Хамидуллина Д. С. Анализ функционирования и перевода авторских неологизмов в произведениях В.О. Пелевина // Проблемы теории и методики профессионального лингвистического образования: материалы IV международной научно-практической конференции, Казань, 15 апреля 2022 г. Казань: Изд-во «Познание», 2022. С. 279-284.

Вильданова Г. А. Национально маркированая зооморфная метафора в переводе//Теория языка и межкультурная коммуникация. 2023. № 1(48). С. 87-99.

Вильданова Г. А. COVID-риторика американского политического дискурса//Теория языка и межкультурная коммуникация. 2020. № 3. С. 43-54.