Корпус цыганского языка

На этом сайте размещён Корпус языка русских цыган, насчитывающий 720 тыс. словоупотреблений. На данный момент он полностью состоит из текстов, изданных в СССР в 1920-х—1930-х годах. В корпус включены все оригинальные тексты (как художественные, так и публицистические), а также незначительное количество переводов (художественных, публицистических и научно-популярных текстов). Корпус находится в стадии разработки. Уже сейчас доступен поиск лексической и грамматической информации по имеющимся текстам. В дальнейшем планируется увеличить объем корпуса как за счёт остальных текстов, опубликованных в 1920-х—1930-х годах, так и за счёт полевых записей разработчиков корпуса. Кроме того, предполагается также улучшить морфологическую разметку, пополнить грамматический словарь и снять омонимию.

Работу над корпусом ведут К. А. Кожанов (Москва), С. А. Оскольская (Санкт-Петербург),
М. В. Ослон (Москва), А. Тенсер (Хельсинки), Т. А. Архангельский (Москва).

Разметка корпуса совершена с помощью системы автоматического морфологического анализа UniParser, разработанной Т. А. Архангельским (Москва). Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC), на сайте которого можно прочитать о том, как пользоваться поисковым интерфейсом.

Корпус создан при финансовой поддержке гранта РФФИ мол_а 14-06-31038 «Создание корпуса языка русских цыган» (рук. К. А. Кожанов, 2014—2015 гг.).