Татарский корпус «Туган тел» является лингвистическим ресурсом современного литературного татарского языка. Проект выполняется при финансовой поддержке Программы фундаментальных исследований Президиума Российской академии наук. Разрабатываемый корпус адресован широкому кругу пользователей: лингвистам, специалистам в области татарского языкознания, типологам, преподавателям татарского языка, деятелям культуры, а также всем, кто изучает и интересуется татарским языком.
Объем корпуса на сентябрь 2013 года составляет более 26 миллионов словоупотреблений. Корпус содержит тексты различных жанров (художественная литература, тексты СМИ, тексты официальных документов, учебная литература, научные публикации и др.). Каждый документ имеет метаописание (авторы, их пол, выходные данные, даты создания, жанры, части, главы и др.). Тексты, включенные в корпус, снабжены морфологической разметкой (информация о части речи и грамматических характеристиках словоформы). Морфологическая разметка текстов корпуса выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии PC-KIMMO.
Для корпуса адаптирована поисковая система Восточноармянского национального корпуса (EANC), позволяющая искать материал по лексеме, словоформе, а также по отдельным грамматическим характеристикам.
Участниками проекта являются сотрудники НИИ «Прикладная семиотика» АН РТ и Казанского федерального университета (Д.Ш. Сулейманов, О.А. Невзорова, Р.Г. Гильмуллин, А.Р. Гатиатуллин, А.М. Галиева, Б.Э. Хакимов, Д.Д. Якубова), НИУ ВШЭ (Т. А. Архангельский), а также студенты и магистранты КФУ.
Разработчики Корпуса приносят благодарность издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии текстов, особая признательность — редакциям журнала «Ялкын», журнала «Идел», газеты «Ватаным Татарстан», газеты «Шахри Казан», издательству «Вакыт-Магариф», а также ГУП РТ «Татарское книжное издательство».