О том, как мы сравнивали теггеры, подробно написано здесь.
Теггеры | TreeTagger | TNT | Hunpos |
---|---|---|---|
Подход | HMM, decision tree | 2ed oder MM, Vitebi algorithm | HMM |
Язык | C++, Perl | ANSI C | OCaml |
Точность в процентах (части речи) | 96,94 | 96,19 | 96,41 |
Точность в процентах (все теги) | 92,56 | 89,24 | 89,29 |
Время обучения | 0,73 | 0,64 | 3,45 |
Время анализа данных | 0,66 | 0,7 | 0,95 |
Accuracy | TreeTagger | TNT | Hunpos | Citar | SVMTool | Stanford | Morfette | Lapos |
---|---|---|---|---|---|---|---|---|
POS (части речи) | 96,94% | 96,19% | 96,41% | 94,76% | 93,43% | 95,82% | 93,03% | 20,07% |
ALL (все теги) | 92,56% | 89,24% | 89,29% | 86,10% | 86,24% | –* | –* | –* |
* нет данных из-за нехватки вычислительных мощностей. Memory error =(
Теггер | Mystem | PyMorphy |
---|---|---|
Точность** | 96,43% | 90,65% |
* теггеры сравниваются отдельно от остальных восьми, так как имеют другой набор тегов, а обучить самим эти анализаторы с выбранным набором тегов не представляется возможным.
** точность (accuracy) на частях речи
Теггеры | TreeTagger | TNT | Hunpos | Citar | SVMTool | Stanford | Morfette | Lapos |
---|---|---|---|---|---|---|---|---|
Подход | HMM, decision tree | HMM | HMM | HMM | SVM | MaxEnt | MaxEnt,average perceptron | Margin perceptron, look ahead |
Язык | C++, Perl | ANSI C | OCaml | C++ | C++, Perl | Java | Haskell | C++ |
Время обучения (части речи) | ~ 12,78 sec | × 1,5 | × 5,5 | × 0,8 | × 1150,0 | × 800,0 | × 1550,0 | × 1120,0 |
Время анализа данных(части речи) | ~ 8,62 sec | × 2,0 | × 3,0 | × 1,5 | × 8,0 | × 15,0 | × 560,0 | × 2000,0 |
Время обучения (все теги) | ~ 601,59 sec | × 0,05 | × 0,3 | × 0,05 | × 25,0 | – | – | – |
Время анализа данных (все теги) | ~ 32,33 sec | × 1,5 | × 2,5 | × 5,5 | × 20,0 | – | – | – |
* в таблице представлено среднее время систем относительно времени самого быстрого из них – Treetagger