Если вы хотите обучить модели для описанных теггеров самостоятельно, то эта инструкция для вас.
Доступные анализаторы:
Tnt ♥ Hunpos ♥ Treetagger ♥ MarMoT ♥ Morfette ♥ Stanford POS Tagger ♥ SVM Tool ♥ CitarУстановка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Глашу S,acc,sg,f,anim,persn
|
Команда для обучения | tnt-para MODEL_NAME TRAINING_CORPUS
Создаст файлы model-name.lex и model_name.123 |
Команда для разметки | tnt MODEL_NAME TEST_CORPUS > RESULT
Название модели -- это просто название без расширений, прописывается один раз |
Подробная инструкция | http://www.coli.uni-saarland.de/~thorsten/tnt/ |
Откуда скачать | http://heartofgold.dfki.de/pkg/components-tnt.tar.gz |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Глашу S,acc,sg,f,anim,persn
|
Команда для обучения | cat TRAINING_CORPUS | ./hunpos-train MODEL_NAME
|
Команда для разметки | ./hunpos-tag MODEL_NAME < TEST_CORPUS > RESULT
Название модели целиком! |
Подробная инструкция | https://code.google.com/archive/p/hunpos/wikis/UserManualI.wiki |
Откуда скачать | https://code.google.com/archive/p/hunpos/downloads |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Глашу S,acc,sg,f,anim,persn
|
Команда для обучения |
|
Команда для разметки | ./treetagger/bin/tree-tagger -token [если нужен токен в аутпуте] -lemma [если нужна лемма в аутпуте]
MODEL_NAME TEST_CORPUS RESULT
Название модели целиком! |
Подробная инструкция | http://cental.fltr.ucl.ac.be/team/~panchenko/def/treetagger/README.txt |
Откуда скачать | http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Володя S S,nom,sg,m,anim,persn
|
Команда для обучения | Теггерjava -Xmx5G -cp marmot.jar marmot.morph.cmd.Trainer -train-file
form-index=0,tag-index=1,morph-index=2,TRAINING_CORPUS -model-file MODEL_NAME [индексы колонок у вас могут быть другими!] Лемматизатор java -Xmx20g -cp marmot.jar:mallet.jar:trove.jar lemming.lemma.cmd.Trainer
lemming.lemma.ranker.RankerTrainer
use-morph=false,use-perceptron=false,use-mallet=false,offline-feature-extraction=false,tag-dependent=true,use-hash-feature-table=true
MODEL_NAME form-index=0,lemma-index=1,tag-index=2,morph-index=2,TRAINING_CORPUS Если нет подробной морфологической аннотации, то в качестве параметра morph-index можно указать тот же индекс, что и у tag-index |
Команда для разметки | java -Xmx5g -cp marmot.jar:trove.jar marmot.morph.cmd.Annotator -model-file MODEL_NAME -test-file form-index=0,TEST_CORPUS
-pred-file RESULT
|
Подробная инструкция | https://github.com/muelletm/cistern/blob/wiki/marmot.md |
Откуда скачать | http://cistern.cis.lmu.de/marmot/ |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Он он S-PRO
|
Команда для обучения |
morfette train TRAINING_CORPUS MODEL_DIRECTORY [даже если модель нужно положить в текущую папку, нельзя оставлять этот параметр пустым, придется прописать ./] |
Команда для разметки | morfette predict MODEL_DIRECTORY < TEST_CORPUS > RESULT
|
Подробная инструкция | https://github.com/gchrupala/morfette |
Откуда скачать | https://github.com/gchrupala/morfette |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Даже/PART сон/S какой-то/A-PRO начал/V сниться/V
|
Команда для обучения |
|
Команда для разметки | java -mx1g -classpath stanford-pos-tagger-3.5.2.jar
edu.stanford.nlp.tagger.maxent.MaxentTagger -model MODEL_NAME -textFile
TEST_CORPUS > RESULT
|
Подробная инструкция | http://nlp.stanford.edu/software/pos-tagger-faq.shtml |
Откуда скачать | http://nlp.stanford.edu/software/tagger.shtml#Download |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Вместе/ADV
|
Команда для обучения |
SVMLearn.pl config.svmt [про конфиги см. мануал с сайта] |
Команда для разметки | SVMTagger.pl V 2 S LR T 4 MODEL_NAME < TEST_CORPUS > RESULT
|
Подробная инструкция | http://www.cs.upc.edu/~nlp/SVMTool/# |
Откуда скачать | http://www.cs.upc.edu/~nlp/SVMTool/# |
Установка и системные требования |
|
---|---|
Формат данных |
|
Пример данных | Даже/PART сон/S какой-то/A-PRO начал/V сниться/V
|
Команда для обучения |
citar-train TRAINING_CORPUS lexicon ngrams [создает файлы lexicon и ngrams] |
Команда для разметки | citar-tag lexicon ngrams < TEST_CORPUS > RESULT
|
Подробная инструкция | https://github.com/danieldk/citar-cxx |
Откуда скачать | https://github.com/danieldk/citar-cxx |