Чанкер для русского языка

Чанкер для именных групп

Демо системы


Выберите метод ask

Загрузите свой файл и скачайте обработанный

Материалы


Система (NP-chunking) создана для извлечения только именных групп в русском языке. То есть формат выдачи представляет собой текст с выделенными скобками именными группами. Например: На [массивной деревянной доске] c [помощью] [клея и лоскутов] был сделан [портрет патриарха Никона].

Данные для этого исследования были взяты из СинТагРуса (синтактически размеченного корпуса русского языка). Из текстов выделялись именные группы и к ним добовлялись теги чанков в BIO-разметке. В большинстве случаев бралась самая длинная цепочка токенов от вершины с существительным.

В качестве признаков были выбраны следующие параметры:

  • 1) морфология слова-объекта
  • 2) морфология слов слева от слова-объекта
  • 3) морфология слова справа от слова-объекта

Был выбран контекст +- 2, то есть от заданного слова плюс/минус два токена вокруг

Были испробованы различные алгоритмы машинного обучения. Метод опорных векторов показал наилучший результат около 78%. Метод CRF показал результат 77%.

Скачать обученную модель SVM