Авторы

  • И Ильин
    Санкт-Петербургский государственный университет

Биография автора

  • И Ильин, Санкт-Петербургский государственный университет
    аспирант

DOI:

https://doi.org/10.71337/inlibrary.uz.digteclaw.136239

Ключевые слова:

право цифровые технологии персональные данные искусственный интеллект интеллектуальный анализ данных технология обработки естественного языка биометрические данные

Аннотация

Статья посвящена концептуализации с точки зрения закона о защите персональных данных процесса развития технологии обработки естественного языка. В результате исследования было выявлено, что существующий правопорядок не в полной мере отвечает техническим особенностям развития данной технологии, что может привести или к излишнему регулированию, или же, напротив, оставить без внимания критические области, требующие защиты. В статье представлены основные проблемы и обозначены направления исследований.

background image

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

163

Japan and Singapore) (January 1, 2019). (2019) 1 European Human Rights Law Review
23, UNSW Law Research Paper No. 19-2.

12. Yudiana, T. C., Rosadi, S. D., & Priowirjanto, E. S. The Urgency of Doxing on

Social Media Regulation and the Implementation of Right to Be Forgotten on Related
Content for the Optimization of Data Privacy Protection in Indonesia // Padjadjaran Jurnal
Ilmu Hukum (Journal OF Law). 2022. Vol. 9(1). Pp 24–45.

И. Г. Ильин, 

аспирант,

Санкт-Петербургский государственный университет

ПЕРСОНАЛЬНЫЕ ДАННЫЕ В СИСТЕМАХ  

ИСКУССТВЕННОГО ИНТЕЛЛЕКТА:  

ТЕХНОЛОГИЯ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

Аннотация.

Статья посвящена концептуализации с точки зрения закона о за-

щите персональных данных процесса развития технологии обработки естествен-
ного языка. В результате исследования было выявлено, что существующий право-
порядок не в полной мере отвечает техническим особенностям развития данной
технологии, что может привести или к излишнему регулированию, или же, напро-
тив, оставить без внимания критические области, требующие защиты. В статье
представлены основные проблемы и обозначены направления исследований.

Ключевые слова

: право, цифровые технологии, персональные данные, ис-

кусственный интеллект, интеллектуальный анализ данных, технология обработки
естественного языка, биометрические данные

PERSONAL DATA IN ARTIFICIAL INTELLIGENCE SYSTEMS:  

NATURAL LANGUAGE PROCESSING TECHNOLOGY

Abstract.

The report focuses on the research results aimed at conceptualizing

the development of natural language processing (NLP) from the perspective of data
protection law. As a result of the research, it was identified that the existing legal regime
does not fully meet the technical features of the development of NLP, which can lead
to excessive regulation or, on the contrary, leave critical areas that require protection
unattended. The following lecture notes aim to briefly describe the problems identified
during the research and indicate the directions for further analysis.

Keywords

: law, digital technologies, personal data, artificial intelligence, data

mining, natural language processing technology, biometric data

Технология обработки естественного языка (англ. Natural language processing,

NLP) активно используется в цифровых товарах и услугах (цифровых продуктах)
для построения коммуникации между человеком и компьютером [2]. Голосовые
помощники, сервисы перевода и озвучки текстов, системы интерактивного


background image

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

164

ответа – все это примеры продуктов данной отрасли. В основе рассматриваемой
технологии находятся генеративные нейросети, для обучения которых использу-
ются электронные лингвистические корпуса – базы данных, содержащие в себе
множество текстов (книг, текстовых транскрипций, переводов и т. д.) и аудиофай-
лов (аудио книг, записей трансляций, подкастов, другого аудиоконтента) [3, 8].
Создание лингвистических корпусов предполагает последовательное прохож-
дение нескольких этапов: оцифровка языка – сбор, обработка и перевод данных
в машиночитаемый формат, разметка корпуса и его последующий интеллектуаль-
ный анализ (англ. Text and data mining, TDM) [3–6].

В контексте создания лингвистических корпусов и развития технологии от-

дельную и важную роль приобретает вопрос использования данных, требующих
особого режима правовой и технической защиты – персональных данных. В связи
с этим принципиальными для разрешения становятся проблемы разграничения
и категоризации персональных данных, пределов, до которых режим персональ-
ных данных будет влиять на процесс создания и развития названной технологии,
а также частные случаи использования персональных данных, применительно
к последующему ее распространению (прим. оплата цифровых услуг персональ-
ными данными).

Проблемы, связанные с разграничением и категоризацией персональных дан-

ных в общем смысле, объясняются необходимостью сначала выделить из объе ма
всех используемых данных – персональные, а затем соотнести их с соответствую-
щей категорией. Вместе с тем на практике это не всегда удается сделать: граница
между персональными и другими данными не всегда четкая.

Во-первых, возникает проблема в определении самого понятия «данные».

Из соотношения существующих норм можно сделать вывод о том, что данные –
это данные, т. е. понятие определяется через само себя. Это создает трудности
при попытках определить форму, в которой персональные данные могут быть
выражены.

Во-вторых, действующее законодательство исходит из бинарного подхода

к определению понятия персональных данных: данные могут быть либо персо-
нальными, либо нет. По мнению автора, такой подход не в полной мере учитывает
современное состояние цифровизации общества, уровень технологического раз-
вития, а также последние социально-экономические изменения. Например, с точ-
ки зрения информатики и компьютерных наук выделяют разные уровни возмож-
ной идентифицируемости и относят к каждому из уровней определенный набор
рисков [8, 9]. Кроме того, такое определение не учитывает, что данные могут быть
идентифицируемыми для одного субъекта, например, в сочетании с другими на-
борами данных, но не для других [10].

В-третьих, статус данных в процессе обработки также может находиться

в динамике и не быть статичным [11]. Иными словами, в процессе обработки дан-
ные могут становиться персональными и, наоборот, терять этот статус. Например,
в процессе создания языковой модели на базе лингвистического корпуса, задей-
ствованные персональные данные теряют маркеры идентификации и, следова-
тельно, теряют статус персональных [7].


background image

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

165

Таким образом, в практическом смысле, данные в качестве персональных

и можно квалифицировать только на определенный момент времени или этапе об-
работки, что может затруднить соблюдение законности всего процесса обработки.

Другая проблема, требующая решения – это проблема определения преде-

ла, до которого обработка данных должна соответствовать требованиям закона.
Например, если языковая модель или корпус были созданы с использованием пер-
сональных данных, означает ли это, что дальнейшее использование продуктов,
построенных на их базе, также попадает под действие закона о защите персональ-
ных данных?

Представляется, что пределы в обеспечении законности обработки персо-

нальных данных в рассматриваемом случае может быть определено через ма-
териальное, временное и территориальное действие правового регулирования
в области защиты персональных данных [4]. Например, материальное дей-
ствие можно определить через различные уровни использования персональ-
ных данных в создании соответствующих цифровых продуктов [7], временные
пределы – через срок, в течение которого будет действовать право субъекта
на защиту данных о нем, территориальные – через юрисдикции стран, в кото-
рых создаются или распространяются соответствующие цифровые продукты.
Вместе с тем такой подход не может быть универсальным, а его применение
влечет за собой ряд трудностей, таких как необходимость соблюдать регули-
рование в области защиты персональных данных, в том числе в отношении
данных умерших людей и без какого-либо ограничения по сроками, необходи-
мость одновременного соблюдения не только национального законодательства
в области защиты персональных данных, но и законов других стран, так как
цифровые продукты редко сосредоточены на одной стране, а реализуются на
рынках разных стран и т. п.

Последней из обозначенных выше проблем является проблема использо-

вания персональных данных, применительно к процессу последующего рас-
пространения технология обработки естественного языка – оплате цифровых
услуг персональными данными. Использование цифровых продуктов на базе
описываемой технологии предполагает интенсивный обмен данными между
пользователем и поставщиком [1]. Поставщик зачастую заинтересован в ис-
пользовании этих данных не только для предоставления самого продукта, но
и для его разработки, улучшения, а также в коммерческих целях. Например,
голосовые данные могут быть использованы для анализа эмоциональной ре-
акции на рекламный контент [12]. Однако возникает вопрос, насколько та-
кое использование соответствует правовому режиму персональных данных?
Представляется, что на сегодняшний день такое использование само по себе не
запрещено, но должно осуществляться в строгом соответствии с действую-
щим регулированием в области защиты персональных данных [13]. Вместе
с тем остается открытым вопрос об определении данных как объекта права
собственности [14], а также о характеристике возмездности соответствующих
гражданско-правовых договоров.


background image

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

Специальные вопросы регулирования и охраны цифровых технологий

Special issues of regulation and protection of digital technologies

166

Список литературы

1. Goldberg Y. Neural Network Methods for Natural Language Processing // Synthesis

Lectures on Human Language Technologies. 2017. Vol. 10, № 1. Pp. 1–309.

2. Hirschberg J., Manning C. D. Advances in natural language processing // Science.

2015. Vol. 349, № 6245. Pp. 261–266.

3. Ilin I. Legal Regime of the Language Resources in the Context of the European

Language Technology Development // Language and Technology Conference. Cham:
Springer International Publishing, 2019. Pp. 367–376.

4. Ilin I. The Voice and Speech Processing within Language Technology Applications:

Perspective of the Russian Data Protection Law // Legal Issues in the digital Age. 2020.
№ 1. Pp. 99–123.

5. Ilin I., Kelli A. The use of human voice and speech for development of language

technologies: the EU and Russian data-protection law perspectives // Juridica Int’l. 2020.
Vol. 29. Pp. 71–105.

6. Jents L., Kelli A. Legal aspects of processing personal data in development and

use of digital language resources: the Estonian perspective // Jurisprudencija. – 2014.
Vol. 21, № 1. Pp. С. 164–184.

7. Kelli A. et al. The interplay of legal regimes of personal data, intellectual property

and freedom of expression in language research // Proceedings CLARIN annual conference.
2021. Vol. 2021. Pp. 154–159.

8. Kelli A., Tavast A., Pisuke H. Copyright and constitutional aspects of digital

language resources // Juridica Int’l. 2012. Vol. 19. Pp. 40–64.

9. Kolain M., Grafenauer C., Ebers M. Anonymity Assessment-A Universal Tool

for Measuring Anonymity of Data Sets under the GDPR with a Special Focus on Smart
Robotics // Rutgers Computer & Tech. LJ. 2021. Vol. 48. Pp. 174–188.

10. Oostveen M. Identifiability and the applicability of data protection to big data

// International Data Privacy Law. 2016. Vol. 6, № 4. Pp. 299–309.

11. Purtova N. The law of everything. Broad concept of personal data and future of EU

data protection law // Law, Innovation and Technology. 2018. Vol. 10, № 1. Pp. 40–81.

12. Sartor G. et al. Study: New aspects and challenges in consumer protection.

Digital services and artificial intelligence. European Parliament, 2020. Pp. 1–41.

13. Савельев А. И. Гражданско-правовые аспекты регулирования оборота пер-

сональных данных // Вестник гражданского права. 2021. Т. 21, № 4. Pp. 104–129.

14. Талапина Э. В. Закон об информации в эпоху больших данных // Вестник

Санкт-Петербургского университета. Право. 2020. Т. 11, № 1. С. 4–18.

Библиографические ссылки

Goldberg Y. Neural Network Methods for Natural Language Processing// Synthesis Lectures on Human Language Technologies. 2017. Vol. 10, № 1. Pp. 1-309.

Hirschberg J., Manning C. D. Advances in natural language processing// Science. 2015. Vol. 349, № 6245. Pp. 261-266.

Ilin I. Legal Regime of the Language Resources in the Context of the European Language Technology Development // Language and Technology Conference. Cham: Springer International Publishing, 2019. Pp. 367-376.

Ilin I. The Voice and Speech Processing within Language Technology Applications: Perspective of the Russian Data Protection Law // Legal Issues in the digital Age. 2020. № l.Pp. 99-123.

Ilin L, Kelli A. The use of human voice and speech for development of language technologies: the EU and Russian data-protection law perspectives//Juridica Int’l. 2020. Vol. 29. Pp. 71-105.

Jents L., Kelli A. Legal aspects of processing personal data in development and use of digital language resources: the Estonian perspective// Jurisprudencija. - 2014. Vol. 21, № l.Pp. C. 164-184.

Kelli A. et al. The interplay of legal regimes of personal data, intellectual property and freedom of expression in language research//Proceedings CLARIN annual conference. 2021. Vol. 2021. Pp. 154-159.

Kelli A., Tavast A., Pisuke H. Copyright and constitutional aspects of digital language resources// Juridica Int’l. 2012. Vol. 19. Pp. 40-64.

Kolain M., Grafenauer C., Ebers M. Anonymity Assessment-A Universal Tool for Measuring Anonymity of Data Sets under the GDPR with a Special Focus on Smart Robotics//Rutgers Computer & Tech. LJ. 2021. Vol. 48. Pp. 174-188.

Oostveen M. Identifiability and the applicability of data protection to big data // International Data Privacy Law. 2016. Vol. 6, № 4. Pp. 299-309.

Purtova N. The law of everything. Broad concept of personal data and future of EU data protection law//Law, Innovation and Technology. 2018. Vol. 10, № 1. Pp. 40-81.

Sartor G. et al. Study: New aspects and challenges in consumer protection. Digital services and artificial intelligence. European Parliament, 2020. Pp. 1-41.

Sartor G. et al. Study: New aspects and challenges in consumer protection. Digital services and artificial intelligence. European Parliament, 2020. Pp. 1-41.

Савельев А. И. Гражданско-правовые аспекты регулирования оборота персональных данных // Вестник гражданского права. 2021. Т. 21, № 4. Рр. 104-129.

Талапина Э. В. Закон об информации в эпоху больших данных// Вестник Санкт-Петербургского университета. Право. 2020. Т. 11, № 1. С. 4-18.