Чанкер для русского языка

Демо системы

Выберите метод

SVM method

CRF method

Материалы

Система (NP-chunking) создана для извлечения только именных групп в русском языке. То есть формат выдачи представляет собой текст с выделенными скобками именными группами. Например: На [массивной деревянной доске] c [помощью] [клея и лоскутов] был сделан [портрет патриарха Никона].

Данные для этого исследования были взяты из СинТагРуса (синтактически размеченного корпуса русского языка). Из текстов выделялись именные группы и к ним добовлялись теги чанков в BIO-разметке. В большинстве случаев бралась самая длинная цепочка токенов от вершины с существительным.

В качестве признаков были выбраны следующие параметры:

1) морфология слова-объекта
2) морфология слов слева от слова-объекта
3) морфология слова справа от слова-объекта

Был выбран контекст +- 2, то есть от заданного слова плюс/минус два токена вокруг

Были испробованы различные алгоритмы машинного обучения. Метод опорных векторов показал наилучший результат около 78%. Метод CRF показал результат 77%.

Скачать обученную модель SVM

Скачать обученную модель CRF

Чанкер для именных групп

Демо системы

Выберите метод

Загрузите свой файл и скачайте обработанный

Материалы