В статье рассматривается трансформация языка в язык Интернета, компьютерные технологии, математическая лингвистика, ее продолжение и становление и развитие компьютерной лингвистики, в частности вопрос моделирования естественных языков для искусственного интеллекта. В частности, исследуется вопрос лингвистического и экстралингвистического разделения специальных тегов для маркировки текстов и их компонентов. Определены требования к кодированию важной текстовой информации. В статье рассматривается основное назначение корпуса как сложного лингвистического источника, а также тот факт, что он в основном содержит два вида информации и ее типы. Национальный корпус, образовательный корпус и параллельный корпус обсуждаются в рамках предмета компьютерной лингвистики. Было подчеркнуто, что их лингвистическая и экстралингвистическая маркировка, разработка алгоритмов формирования корпусов и создание корпусной лингвистической поддержки являются общественной потребностью.
