Система (NP-chunking) создана для извлечения только именных групп в русском языке. То есть формат выдачи представляет собой текст с выделенными скобками именными группами. Например: На [массивной деревянной доске] c [помощью] [клея и лоскутов] был сделан [портрет патриарха Никона].
Данные для этого исследования были взяты из СинТагРуса (синтактически размеченного корпуса русского языка). Из текстов выделялись именные группы и к ним добовлялись теги чанков в BIO-разметке. В большинстве случаев бралась самая длинная цепочка токенов от вершины с существительным.
В качестве признаков были выбраны следующие параметры:
Был выбран контекст +- 2, то есть от заданного слова плюс/минус два токена вокруг
Были испробованы различные алгоритмы машинного обучения. Метод опорных векторов показал наилучший результат около 78%. Метод CRF показал результат 77%.
Скачать обученную модель SVM
Скачать обученную модель CRF