На этом сайте размещён Корпус амхарского языка. В настоящий момент размер корпуса составляет свыше 23 миллионов словоупотреблений. Тексты корпуса были размечены с помощью автоматического частеречного анализатора. Корпус представляет собрание текстов со снятой омонимией, т. е. каждой словоформе приписан один наиболее подходящий разбор.
В текущей версии корпуса подавляющее большинство словоупотреблений приходится на прессу. Оставшиеся тексты представляют собой блоги и нехудожественные тексты (статьи из Википедии и эссе). В будущем мы планируем расширить текстовую базу и включить в корпус художественную литературу.
25 мая 2016 г.
Марией Объедковой под руководством Бориса Орехова в рамках учебного проекта Школы лингвистики НИУ ВШЭ
Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC), на сайте которого можно прочитать о том, как пользоваться поисковым интерфейсом.