Корпус удмуртского языка

На этом сайте размещён Корпус удмуртского языка. В настоящий момент размер корпуса составляет около 7,3 миллионов словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, около 88% словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т. е. каждой словоформе приписаны все возможные варианты разбора без учёта контекста. Последнее обновление корпуса было произведено 6 марта 2016 г.

В текущей версии корпуса подавляющее большинство словоупотреблений приходится на прессу 2007–2015 гг. (91%). Оставшиеся тексты представляют собой блоги (6%) и нехудожественные тексты (Новый завет, статьи из Википедии и эссеистика, 3%). В будущем мы планируем расширить текстовую базу и включить в корпус художественную литературу. Большинство текстов написаны в стандартной орфографии, однако в корпусе имеется небольшое количество текстов, лишённых диакритик (2,1%). Такие тексты при желании можно исключить из рассмотрения с помощью окна выбора подкорпуса. Для ввода символов с диакритиками можно воспользоваться виртуальной клавиатурой (кнопка в конце текстового поля запроса).

Участники проекта

Мария Медведева
Тимофей Архангельский
(Школа лингвистики НИУ ВШЭ)

Интерфейс

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC), на сайте которого можно прочитать о том, как пользоваться поисковым интерфейсом.