Корпус амхарского языка

На этом сайте размещён Корпус амхарского языка. В настоящий момент размер корпуса составляет свыше 23 миллионов словоупотреблений. Тексты корпуса были размечены с помощью автоматического частеречного анализатора. Корпус представляет собрание текстов со снятой омонимией, т. е. каждой словоформе приписан один наиболее подходящий разбор.

В текущей версии корпуса подавляющее большинство словоупотреблений приходится на прессу. Оставшиеся тексты представляют собой блоги и нехудожественные тексты (статьи из Википедии и эссе). В будущем мы планируем расширить текстовую базу и включить в корпус художественную литературу.

Последнее обновление корпуса

25 мая 2016 г.

Корпус создан

Марией Объедковой под руководством Бориса Орехова в рамках учебного проекта Школы лингвистики НИУ ВШЭ

Интерфейс

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC), на сайте которого можно прочитать о том, как пользоваться поисковым интерфейсом.