О проекте




Оказывается, в России говорят не только на русском языке, но и на менее распространённом татарском и на совсем нераспространенном нанайском, а ещё и на множестве других языков. Целью нашего проекта является создание коллекций текстов на малых языках России.

Мы называем их «малыми», хотя для некоторых из них насчитывается больше миллиона носителей, но зачастую компьютерно-лингвистических инструментов для них не больше, чем для совсем малочисленных идиомов. Также стоит сказать, что мы не рассматриваем языки вроде армянского или казахского, поскольку они представляют собой государственные языки других стран, хотя, несомненно, широко используются на территории России. К сожалению, далеко не все признанные языки в РФ можно встретить в Интернете, некоторые из них находятся на грани исчезновения, другие — вытесняются русским.

Работа над этим проектом представляет собой многоэтапный процесс. Сначала мы ищем лексические маркеры — слова, которые уникальны для конкретного малого языка (то есть такая последовательность букв не должна встречаться ни в одном другом языке). Также от маркера требуется, чтобы он был частотным, то есть встречался в как можно большем числе текстов. Часто уникальные слова для некоторых языков содержат диакритику, специальные расширяющие алфавит над- и подстрочные знаки. Если в русской раскладке клавиатуры нет этих специальных символов, говорящие на малом языке обычно пользуются похожими буквами кириллического алфавита. Получается то, что А. А. Зализняк назвал «бытовой системой письма», когда описывал древненовгородский диалект русского языка. Всё это заставляет учесть необходимость перевода диакритики в русский аналог (по звучанию или написанию), ведь именно так поступит пользователь-носитель малого языка. Поиск маркеров осуществляется вручную, поскольку автоматический поиск возможен только на больших массивах текстов.

После того как мы нашли маркеры для языка, мы ищем все интернет-страницы, которые содержат тексты на данном языке. Для этого мы используем Яндекс.XML — сервис, который позволяет делать автоматические запросы к поисковой машине Яндекса. Количество запросов в день ограничено — их только 1000. Таким образом, мы получаем список доменов со страницами на искомом языке, последовательно посылая в качестве запросов лексические маркеры. Затем с помощью того же Яндекс.XML мы ищем конкретные интернет-страницы на каждом домене, который обнаружили в выдаче. Прежде чем начать выкачивать тексты с полученных адресов, мы сортируем домены на группы: «хорошие», то есть такие, которые содержат больше 30 страниц на интересующем нас языке, «бедные» – с отдельными страницами – и «большие», такие как youtube.com и stihi.ru, многостраничные сайты, на которых встретилось несколько страниц на данном языке. В зависимости от того, в какую категорию попал наш домен, мы либо выкачиваем его целиком, либо достаем оттуда несколько отдельных страниц.

Выкачивание текстов с полученных доменов мы производим с помощью фреймворка Scrapy для сбора данных, написанного на Python.

Делая запрос, где в качестве домена используется vk.com, мы получаем список страниц из социальной сети «Вконтакте» на искомом языке. При этом мы выбираем исключительно страницы сообществ, игнорируя персональные страницы пользователей. Этот выбор основан на предположении, что на персональной странице человек, скорее всего, будет пользоваться не только родным малым языком, но и большим (русским). Сообщества, напротив, объединяют людей с общими интересами и общим языком. Получив список сообществ, мы извлекаем необходимую нам информацию с помощью API «Вконтакте»: список постов, комментариев, а также метаинформацию (название сообщества, количество участников). Мы также сохраняем некоторую информацию об авторах постов: пол, дата рождения, город (эти данные анонимизируются: имя и фамилия пользователей из наших наборов данных удалены). Эти данные могут быть использованы впоследствии в социологических и социолингвистических исследованиях. У API Вконтакте, как и у Яндекс.XML, тоже есть свои ограничения – за один запрос можно получить не более 100 записей со страницы сообщества или 100 комментариев. Всё это несколько замедляет процесс сбора текстов.

Далеко не все страницы, найденные автоматически, скачиваются. Причина этому – наличие в списке множества персональных страниц, а также то, что порой несколько различных ссылок ведут в одно и то же сообщество. Таким образом, на данном ресурсе вы можете получить информацию о том, какие языки представлены в интернете, а какие – нет, а также найти и скачать тексты на интересующем вас языке России.



Проект был реализован как часть магистерской программы «Компьютерная лингвистика» школы лингвистики НИУ ВШЭ.

По всем возникшим вопросам вы можете написать нам на почту ru-lang@yandex.ru.

Автор идеи и куратор проекта

Борис Орехов

Участники проекта

Людмила Зайдельман
Ирина Крылова
Екатерина Степанова
Иван Попов

Мы благодарны:

К. Ю. Решетникову, Ю. Б. Корякову и Даше Игнатенко.

Публикации

2016
  • Технология поиска и сбора в Интернете текстов на малых языках России. Л.Я. Зайдельман, И.В. Крылова, Б.В. Орехов (2016) CPT2015 Труды Международной научной конференции, Институт физико-технической информатики, cc. 179-181, Москва-Протвино, 2016
    Статья, Обложка сборника
  • Russian Minority Languages on the Web: Descriptive Statistics Orekhov B., Krylova I., Popov I., Stepanova E., Zaydelman L.(2016) In Proceedings of the Annual International Conference “Dialogue” (2016) – Computational Linguistics and Intellectual Technologies, p. 498-508 – M.: RSUH, 2016
    Статья
2015
  • Languages of Russia: Using Social Networks to Collect Texts. Zaydelman L.,Krylova I., Orekhov B., Stepanova E. (in print) In Proceedings of the 9th Summer School in Information Retrieval and Young Scientist Conference (RuSSIR 2015) – Revised and Selected Papers. Communications in Computer and Information Science, Vol. 573, p. 1-8, Springer, 2015

Выступления

2016

Дипломные работы

2016
  • Моделирование речевого поведения носителя миноритарного языка РФ в социальной сети (англ. Native Speaker Speech Behaviour Modelling (Based on Russian Federation Minor Languages in a Social Network)) Л.Я. Зайдельман (2016) магистерская диссертация, НИУ ВШЭ
    Текст, Презентация с защиты
  • Миноритарные языки РФ в Интернете: количественное описание и анализ данных (англ. Representation of minor languages of Russia on the Internet: quantitative description and data analysis) И.В. Крылова (2016) магистерская диссертация, НИУ ВШЭ
    Текст, Презентация с защиты