Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
157
22. Pedrouzo G. L’archivage numérique dans la sphère publique, les enjeux d’une
législation annoncée // Revue française d’administration publique. 2014. № 151-152.
Pр. 825-837.
23. Serlet M. Archivage électronique et analyse de risque : les nouveaux défis de
l’archiviste // Memoires de stage. 2009. № 3. Pр. 14-46.
Г. А. Вильданова,
кандидат филологических наук, доцент,
Казанский инновационный университет
имени В. Г. Тимирясова
БОЛЬШИЕ ДАННЫЕ В ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЯХ
Аннотация.
В статье рассматривается потенциал Big
Data (Большие дан-
ные) в современных лингвистических исследованиях дискурса. Анализируются
виды корпусов и инструментарий корпусной лингвистики для изучения различ-
ных аспектов и видов дискурса. Рассматриваются ресурсы параллельного корпуса
Национального корпуса русского языка, который позволяет выявить актуальные
переводческие соответствия для исследуемых лексических единиц, в частности
безэквивалентной лексики и лексем, осложненных национально культурными
коннотациями. Помимо этого, данные параллельного корпуса Национального кор-
пуса русского языка позволяют обнаружить особенности передачи авторских нео-
логизмов в переводе и выявить релевантные стратегии перевода прагматического
потенциала текстовых элементов разного уровня. В статье обращается к ресур-
сам корпус-менеджера AntConc, который представляется полезным инструментом
применительно к языковой экспертизе и исследованию политического дискурса,
в частности изучению словоупотребления и коммуникативного инструментария
определенных политиков и общественных деятелей. На основе полученных ре-
зультатов представлены рекомендации по использованию Больших данных в раз-
личных изысканиях лингвистического плана в соответствии с целью и задачами,
поставленными исследователями дискурса.
Ключевые слова
: большие данные, корпус, дискурс, перевод, языковая
экспертиза
BIG DATA IN LINGUISTIC RESEARCH
Abstract.
The article discusses the potential of Big Data using in modern linguistic
studies of discourse. The author analyzes the types of corpora and tools of corpus linguistics
to examine various aspects and types of discourse. The paper considers the resources
of the parallel corpora of the National Corpus of the Russian language, which helps to
identify relevant translation equivalents to the lexical units under study, in particular
equivalent lacking vocabulary and lexemes with national cultural connotations. The
data of the parallel corpus of the National Corpus of the Russian Language also makes it
possible to detect the specific features of author’s neologisms translation and to identify
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
158
relevant strategies for translating the pragmatic potential of diverse text elements. The
author considers the resources of the corpus-manager AntConc, which is a useful tool
in linguistic expertise and in political discourse study, in particular, the study of word
usage and communicative resources of certain politicians and public figures. Based on
the results obtained, the author presents recommendations on the Big Data usage in
various linguistic studies in accordance with the goal and objectives set by discourse
researchers.
Keywords
:
Big Data, corpus, discourse, translation, language examination
Введение.
В фокусе данной работы – потенциал Big
Data (Большие дан-
ные) в современных лингвистических исследованиях различных видов дискурса.
Интерес к данной проблеме обусловлен открывающимися перспективами иссле-
дования проблем разного уровня, возможностью анализа обширных эмпириче-
ских данных и существенной экономии времени и усилий современного исследо-
вателя в области языка. Более того, в настоящее время большие данные становятся
обязательным инструментом научно-исследовательской деятельности лингвиста.
В рамках данной публикации мы обращаемся к собственному опыту применения
корпусов при изучении особенностей перевода национально маркированной лек-
сики, авторских неологизмов и рассмотрения специфики риторики политических
деятелей.
Методика.
Основным методом выступает анализ корпусных данных полу-
ченных в результате обработки текстов определенными корпус-менеджерами.
Следует отметить тот факт, что в соответствии с целью исследования привлека-
ются различные виды корпусов и задействуется определенный инструментарий
корпусной лингвистики. Для изучения переводческого аспекта представляется
целесообразным обращение к ресурсам параллельного корпуса Национального
корпуса русского языка, который позволяет выявить актуальные переводческие
соответствия для исследуемых лексических единиц, в частности безэквивалент-
ной лексики и лексем, осложненных национально культурными коннотациями [1].
По мнению В. П. Захарова, НКРЯ не является исчерпывающим источником эм-
пирических данных, и исследователь предлагает привлекать такие инструменты
и сопутствующие им программные средства, как корпус русских текстов системы
Sketch Engine, корпус русских текстов Araneum Russicum Maius из семейства псев-
допараллельных корпусов Aranea Университета им. А. Коменского в Братиславе.
Важным фактором является объем корпусов, в частности «объем основного корпу-
са НКРЯ составляет 230 млн словоупотреблений, русскоязычный Araneum Maius
насчитывает 1 200 млн токенов (около 1 000 млн текстоформ), ruTenTen 2011из
Sketch Engine имеет объем более 18 млрд токенов (14,5 млрд текстоформ). Самый
же большой на сегодняшний день корпус русского языка – это корпус русских
книг Google books Ngram Viewer, который содержит 591 310 текстов общим объе-
мом более 67млрд словоупотреблений» [2. С. 83].
Другим любопытным инструментом корпусной лингвистики является кор-
пус-менеджер AntConc, который предназначен для обработки корпусов первого
порядка, предоставляет исследователю свободу в отборе дискурса для анализа
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
159
и позволяет производить анализ данных незарегистрированных в национальных
корпусах [3, 4]. Полагаем, что данный корпус-менеджер представляется полезным
инструментом применительно к языковой экспертизе и исследованию определен-
ного вида дискурса, в частности изучению словоупотребления и коммуникативно-
го речевого поведения определенных политиков и общественных деятелей.
Основная часть.
Прежде всего, отметим, что инструментарий корпусной
лингвистики плодотворно исследуется и подробно описан отечественными и за-
рубежными учеными [2, 4, 5, 6, 7]. Диапазон ресурсов корпусов обширен и вари-
ативен, в распоряжении современного исследователя инструменты, позволяющие
произвести количественную и качественную экспертизу языковых соответствий.
Выбор инструмента определяется целью научного изыскания, а корпус-менеджер
может выступать как основным, так и второстепенным источником эмпирических
данных. Опираясь на наш опыт анализа корпусных данных, представляется целе-
сообразным осветить потенциал больших данных в переводческой деятельности
и языковой экспертизе.
В переводческой практике мы часто сталкиваемся с проблемой эквивалент-
ной передачи нестандартных языковых единиц (лакун, реалий, окказионализмов,
идиом) и здесь полезным ресурсом становится параллельный корпус, содержащий
оригиналы и переводы художественных текстов и позволяющий выявить акту-
альные межязыковые соответствия. В частности, данные параллельного корпуса
Национального корпуса русского языка позволяют обнаружить особенности пе-
редачи лакун в переводе и выявить релевантные стратегии перевода прагматиче-
ского потенциала текстовых элементов разного уровня. Разумеется, помимо это-
го, важными источниками эмпирических данных являются корпуса иностранных
(Британский национальный корпус, Американский национальный корпус и др.)
и отечественных национальных языков (в частности, татарский национальный
корпус «Туган тел»), которые содержат тексты различных жанров и миллионы
словоупотреблений, дающих представление о современном состоянии исследуе-
мой языковой системы и особенностях развития литературной нормы языкового
коллектива.
Яркой иллюстрацией эффективности параллельного корпуса могут послу-
жить предпринятые нами исследования перевода таких лексических единиц, как
авторские неологизмы [8], лакуны американской культуры и зооморфной метафо-
ры [9]. Опираясь на полученные данные, нам, в частности, удалось обнаружить,
что при переводе произведений В. Пелевина переводчики стараются калькиро-
вать окказионализмы и часто переводные соответствия не передают весь колорит
и двусмысленность значений, присущих оригинальным творческим неологизмам
писателя [8]. Любопытным представляется опыт перевода лакун, в частности
американской культуры: одним из наиболее сложных является кулинарная сфера
и НКРЯ демонстрирует вариативность подхода к передаче лакунарности. К при-
меру, такой десерт как «брауни» (brounie) получает разнообразные трактовки
в переводе, начиная от транскрипционной передачи «брауни» и функционального
аналога «
шоколадное
печенье, шоколадный
кекс» и заканчивая «шоколадным мо-
роженым» [1].
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
160
Особый интерес представляет изучение коннотаций зооморфных метафор
на основе НКРЯ: анализ переводных соответствий обнаруживает возникновение
пейоративной оценки в результате метафорического переноса «животное-чело-
век» и отсутствие негативных/позитивных коннотаций у коррелята зоонима в язы-
ке перевода [9]. Данные выводы опираются на количественные данные, Однако
думается, что более важной становится консультативная функция параллельного
корпус-менеджера – переводчик получает доступ к переводческому опыту переда-
чи культурно маркированных единиц в различных контекстах, что позволяет ему
уверенно выбрать то или иное решение переводческой дилеммы. Более того, кор-
пусные данные становятся фундаментальной основой для разработки переводче-
ских стратегий и учебно-методических рекомендаций.
Следует отметить обширные статистические возможности корпус-менедже-
ра: исследователь получает доступ к важным количественным данным, наглядно
представляющим основные характеристики стиля речи писателя, героя произведе-
ния, политика, общественного деятеля и т. п. В этой связи заслуживает внимание
корпус-менеджер AntConc, который предназначен для обработки корпусов перво-
го порядка, предоставляет исследователю свободу в отборе дискурса для анализа
и позволяет производить анализ данных незарегистрированных в национальных
корпусах. Данный инструмент позволяет лингвисту самому отбирать анализируе-
мый языковой материал, сужает объект исследования и становится инструментом
языковой экспертизы. В частности, потенциал AntConc был эффективно задей-
ствован при анализе риторики американского президента Д. Трампа [10].
Для целей нашего исследования в корпус-менеджер были загружены вы-
ступления политика в период с февраля по август 2020 года (стенографии
11 пресс-конференций общим объемом 7:12:15 часов, 77 987 слов, 443 127 знаков),
что позволило обнаружить «ограниченность словарного запаса, бравирование
простоватостью и невежеством, самопрезентация как душевного, безыскусного
и понятного простому народу человека» [10. С. 50]. Полученные данные наглядно
демонстрируют особенности идиолекта американского президента, в частности
скудность эпитетов, преобладание доступных для понимания лексических еди-
ниц, отсутствие книжной лексики (рис. 1.). Данная диаграмма показательно иллю-
стрирует умение политика говорить с рядовым избирателем, его коммуникатив-
ную интуицию и популизм [10].
Так как целью исследования была именно короновирусная риторика аме-
риканского президента выступления политика, были проанализированы с точки
зрения частотности упоминания темы COVID и лексических единиц, используе-
мых Д. Трампом для обозначения короновирусной инфекции. Корпус-менеджер
AntConc наглядно продемонстрировал рост дисфемистичности и дискриминаци-
онного характера номинаций, целью которых было подчеркнуть предполагаемый
источник COVID-инфекции, сместить акцент, переключить внимание обществен-
ности с промахов американского здравоохранения на «заокеанского недруга», об-
винить и высмеять КНР (вспомним уничижительный и ироничный окказионализм
KungFlu) (рис. 2). В этой связи, смело можно утверждать, что корпус-менеджер
AntConc является ценным инструментом при анализе дискурсивных стратегий.
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
161
Рис. 1. Частотность эпитетов в речи Д. Трампа
Рис. 2. Динамика номинативного варьирования короновирусной инфекции
в выступлениях Д. Трампа
Таким образом, большие данные становятся неотъемлемой частью языко-
вой экспертизы, предоставляют убедительные и иллюстративные данные для ин-
терпретации и прогнозирования в исследованиях политического дискурса. И, по
нашему глубокому убеждению, корпусные методы должны взаимодействовать
с другими методиками для достижения наиболее объемной и репрезентативной
картины итогов исследования.
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
Мультидисциплинарные (неюридические) аспекты цифровой трансформации
Multidisciplinary (Non-Legal) Aspects оf Digital Transformation
162
Заключение.
В результате нашего исследования можно заключить
следующее:
1. В современной лингвистике понятие большие данные (Big
Data) актуали-
зируется в форме различных корпусов, которые становятся важным инструментом
в научном исследовании.
2. Корпус-менеджеры позволяют решить разнообразные цели и задачи линг-
вистического исследования и предоставляют обширные эмпирические и стати-
стические данные.
3. Современные корпус-менеджеры демонстрируют высокую эффектив-
ность: исследователь в области лингвистики получает доступ к данным, обработ-
ка которых ранее была трудоемким и длительным процессом.
Можно вполне обоснованно утверждать, что применение больших данных
становится необходимым и неизбежным в различных изысканиях лингвистиче-
ского плана.
Список литературы
1. НКРЯ – Национальный корпус русского языка. URL: ruscorpora.ru
2. Захаров В. П. Лингвистика больших корпусов // Компьютерная лингвисти-
ка и вычислительные онтологии. СПб.: ИТМО, 2015. С. 82-93.
3. AntConc: A freeware corpus analysis toolkit for concordancing and text analy-
sis. URL: https://www.laurenceanthony.net/software/antconc
4. Park, S. A corpus linguistics course for international students // International
Conference of Korean Association for Corpus Linguistic, Kyung Hee University, Seoul,
South Korea, 2019.
5. Vaughan E., O’Keeffe A. Corpus Analysis / E. Vaughan, A. O’Keeffe // The
International Encyclopedia of Language and Social Interaction. John Wiley & Sons,
2015.
6. Pérez-Paredes P., Sánchez-Tornel M., Alcaraz Calero J. M. The role of corpus
linguistics in developing innovation in data-driven language learning / P. Pérez-Paredesa,
М. Sánchez-Tornela, J.M. Alcaraz Calero // Congreso Internacional de Innovación
Docente, Cartagena, 2011.
7. Allen W. Making corpus data visible: visualising text with research intermediar-
ies // Corpora. 2018. Vol. 12. Pр. 459-482.
8. Вильданова Г. А., Хамидуллина Д. С. Анализ функционирования и пе-
ревода авторских неологизмов в произведениях В.О. Пелевина // Проблемы те-
ории и методики профессионального лингвистического образования: материалы
IV международной научно-практической конференции, Казань, 15 апреля 2022 г.
Казань: Изд-во «Познание», 2022. С. 279-284.
9. Вильданова Г. А. Национально маркированая зооморфная метафора в пе-
реводе // Теория языка и межкультурная коммуникация. 2023. № 1(48). С. 87-99.
10. Вильданова Г. А. COVID-риторика американского политического дискур-
са // Теория языка и межкультурная коммуникация. 2020. № 3. С. 43-54.
