Mystem+

Сравнительные таблицы морфологических анализаторов

О том, как мы сравнивали теггеры, подробно написано здесь.

Сводная таблица лучших теггеров

Теггеры	TreeTagger	TNT	Hunpos
Подход	HMM, decision tree	2ed oder MM, Vitebi algorithm	HMM
Язык	C++, Perl	ANSI C	OCaml
Точность в процентах (части речи)	96,94	96,19	96,41
Точность в процентах (все теги)	92,56	89,24	89,29
Время обучения	0,73	0,64	3,45
Время анализа данных	0,66	0,7	0,95

Сравнительная таблица всех теггеров

Accuracy	TreeTagger	TNT	Hunpos	Citar	SVMTool	Stanford	Morfette	Lapos
POS (части речи)	96,94%	96,19%	96,41%	94,76%	93,43%	95,82%	93,03%	20,07%
ALL (все теги)	92,56%	89,24%	89,29%	86,10%	86,24%	–*	–*	–*

* нет данных из-за нехватки вычислительных мощностей. Memory error =(

PyMorphy vs Mystem*

Теггер	Mystem	PyMorphy
Точность**	96,43%	90,65%

* теггеры сравниваются отдельно от остальных восьми, так как имеют другой набор тегов, а обучить самим эти анализаторы с выбранным набором тегов не представляется возможным.

** точность (accuracy) на частях речи

Сравнительная таблица времени обучения и анализа теггеров*

Теггеры	TreeTagger	TNT	Hunpos	Citar	SVMTool	Stanford	Morfette	Lapos
Подход	HMM, decision tree	HMM	HMM	HMM	SVM	MaxEnt	MaxEnt,average perceptron	Margin perceptron, look ahead
Язык	C++, Perl	ANSI C	OCaml	C++	C++, Perl	Java	Haskell	C++
Время обучения (части речи)	~ 12,78 sec	× 1,5	× 5,5	× 0,8	× 1150,0	× 800,0	× 1550,0	× 1120,0
Время анализа данных(части речи)	~ 8,62 sec	× 2,0	× 3,0	× 1,5	× 8,0	× 15,0	× 560,0	× 2000,0
Время обучения (все теги)	~ 601,59 sec	× 0,05	× 0,3	× 0,05	× 25,0	–	–	–
Время анализа данных (все теги)	~ 32,33 sec	× 1,5	× 2,5	× 5,5	× 20,0	–	–	–

* в таблице представлено среднее время систем относительно времени самого быстрого из них – Treetagger