Корпус удмуртского языка

Уважаемые пользователи! Вы находитесь в старой версии Корпуса удмуртского языка. С 2017 г. работает новая версия корпуса на платформе Tsakorpus. Она доступна по адресу http://udmurt.web-corpora.net/, как и несколько других удмуртских корпусов. В настоящий момент новая версия существенно лучше размечена и содержит около 9,6 млн словоупотреблений. Все обновления разметки и пополнения производятся только в новой версии. Старая версия не обновляется с 2016 г.

На этом сайте размещён Корпус удмуртского языка. В настоящий момент размер корпуса составляет около 7,3 миллионов словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, около 88% словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т. е. каждой словоформе приписаны все возможные варианты разбора без учёта контекста. Последнее обновление корпуса было произведено 6 марта 2016 г.

В текущей версии корпуса подавляющее большинство словоупотреблений приходится на прессу 2007–2015 гг. (91%). Оставшиеся тексты представляют собой блоги (6%) и нехудожественные тексты (Новый завет, статьи из Википедии и эссеистика, 3%). В будущем мы планируем расширить текстовую базу и включить в корпус художественную литературу. Большинство текстов написаны в стандартной орфографии, однако в корпусе имеется небольшое количество текстов, лишённых диакритик (2,1%). Такие тексты при желании можно исключить из рассмотрения с помощью окна выбора подкорпуса. Для ввода символов с диакритиками можно воспользоваться виртуальной клавиатурой (кнопка в конце текстового поля запроса).

Участники проекта

Мария Медведева
Тимофей Архангельский
(Школа лингвистики НИУ ВШЭ)

Интерфейс

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC), на сайте которого можно прочитать о том, как пользоваться поисковым интерфейсом.