Сравнительные таблицы морфологических анализаторов

О том, как мы сравнивали теггеры, подробно написано здесь.

Сводная таблица лучших теггеров

Теггеры TreeTagger TNT Hunpos
Подход HMM, decision tree 2ed oder MM, Vitebi algorithm HMM
Язык C++, Perl ANSI C OCaml
Точность в процентах (части речи) 96,94 96,19 96,41
Точность в процентах (все теги) 92,56 89,24 89,29
Время обучения 0,73 0,64 3,45
Время анализа данных 0,66 0,7 0,95

Сравнительная таблица всех теггеров

Accuracy TreeTagger TNT Hunpos Citar SVMTool Stanford Morfette Lapos
POS (части речи) 96,94% 96,19% 96,41% 94,76% 93,43% 95,82% 93,03% 20,07%
ALL (все теги) 92,56% 89,24% 89,29% 86,10% 86,24% –* –* –*

* нет данных из-за нехватки производственных мощностей. Memory error =(

PyMorphy vs Mystem*

Теггер Mystem PyMorphy
Точность** 96,43% 90,65%

* теггеры сравниваются отдельно от остальных восьми, так как имеют другой набор тегов, а обучить самим эти анализаторы с выбранным набором тегов не представляется возможным.

** точность (accuracy) на частях речи

Сравнительная таблица времени обучения и анализа теггеров*

Теггеры TreeTagger TNT Hunpos Citar SVMTool Stanford Morfette Lapos
Подход HMM, decision tree HMM HMM HMM SVM MaxEnt MaxEnt,average perceptron Margin perceptron, look ahead
Язык C++, Perl ANSI C OCaml C++ C++, Perl Java Haskell C++
Время обучения (части речи) ~ 12,78 sec × 1,5 × 5,5 × 0,8 × 1150,0 × 800,0 × 1550,0 × 1120,0
Время анализа данных(части речи) ~ 8,62 sec × 2,0 × 3,0 × 1,5 × 8,0 × 15,0 × 560,0 × 2000,0
Время обучения (все теги) ~ 601,59 sec × 0,05 × 0,3 × 0,05 × 25,0
Время анализа данных (все теги) ~ 32,33 sec × 1,5 × 2,5 × 5,5 × 20,0

* в таблице представлено среднее время систем относительно времени самого быстрого из них – Treetagger