Tatar National Corpus “Tugan tel”

Татарский корпус «Туган тел» является лингвистическим ресурсом современного литературного татарского языка. Проект выполняется при финансовой поддержке Программы фундаментальных исследований Президиума Российской академии наук. Разрабатываемый корпус адресован широкому кругу пользователей: лингвистам, специалистам в области татарского языкознания, типологам, преподавателям татарского языка, деятелям культуры, а также всем, кто изучает и интересуется татарским языком.

Объем корпуса на сентябрь 2013 года составляет более 26 миллионов словоупотреблений. Корпус содержит тексты различных жанров (художественная литература, тексты СМИ, тексты официальных документов, учебная литература, научные публикации и др.). Каждый документ имеет метаописание (авторы, их пол, выходные данные, даты создания, жанры, части, главы и др.). Тексты, включенные в корпус, снабжены морфологической разметкой (информация о части речи и грамматических характеристиках словоформы). Морфологическая разметка текстов корпуса выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии PC-KIMMO.

Для корпуса адаптирована поисковая система Восточноармянского национального корпуса (EANC), позволяющая искать материал по лексеме, словоформе, а также по отдельным грамматическим характеристикам.

Участниками проекта являются сотрудники НИИ «Прикладная семиотика» АН РТ и Казанского федерального университета (Д.Ш. Сулейманов, О.А. Невзорова, Р.Г. Гильмуллин, А.Р. Гатиатуллин, А.М. Галиева, Б.Э. Хакимов, Д.Д. Якубова), НИУ ВШЭ (Т. А. Архангельский), а также студенты и магистранты КФУ.

Разработчики Корпуса приносят благодарность издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии текстов, особая признательность — редакциям журнала «Ялкын», журнала «Идел», газеты «Ватаным Татарстан», газеты «Шахри Казан», издательству «Вакыт-Магариф», а также ГУП РТ «Татарское книжное издательство».