Mystem+

онлайн-ресурс, на котором Вы можете протестировать системы морфлогического анализа текстов для русского языка.

"There are ten parts of speech and they are all troublesome."

Для большинства задач компьютерной лингвистики требуются большие корпуса текстов с морфологической разметкой. Такая разметка обычно осуществляется с помощью морфологических анализаторов (теггеров), таких как Mystem, Pymorphy и др. Однако большинство теггеров плохо справляются со сложными случаями омонимии, такими как омонимия форм внутри парадигмы и омонимия лемм внутри одной части речи. Мы сравнили различные теггеры с точки зрения общего качества разметки и разрешения омонимии, а также протестировали несколько собственных подходов к автоматическому морфологическому анализу.

Wordcloud from Russian national corpus

Теггер – программа, которая делает автоматический морфологический анализ текста и размечает его, присваивая каждому слову грамматический тег или набор грамматических тегов. Чаще всего используется частеречная разметка (POS-tagging). Чтобы размечать незнакомые тексты, большинство теггеров сначала должно обучиться на размеченном вручную корпусе. Автоматическая разметка делается на основании модели, полученной в процессе обучения. Если для одной формы существует несколько разборов, выбирается один из них в зависимости от левого и/или правого контекста, n-грамм с данной словоформой, частотности отдельных разборов и т.д. Это и есть дизамбигуация. Некоторые теггеры позволяют посмотреть все возможные разборы.


Обратная связь