TnT

TnT, the short form of Trigrams'n'Tags, is a very efficient statistical part-of-speech tagger that is trainable on different languages and virtually any tagset. The component for parameter generation trains on tagged corpora. The system incorporates several methods of smoothing and of handling unknown words. TnT is not optimized for a particular language. Instead, it is optimized for training on a large variety of corpora.

  • Алгоритм: Витерби + СММ второго порядка
  • Язык программирования: ANSI C
  • Формат ввода: строка = токен
  • Разделитель: табуляция
  • Точность (POS): 94,74%
  • Время обучения: 0,64
  • Время анализа данных: 0.7
  • Лицензия: Thorsten Brants. Universität des Saarlandes
  • Официальный сайт: TnT