Лингвистические корпуса и сервисы
Корпуса языков России
-
Бурятский корпус
Разрабатываемый корпус адресован широкому кругу пользователей, в первую очередь — лингвистам, специалистам в области монгольского языкознания, профессиональная деятельность, которых относится к сфере науки и образования. Объем корпуса 2200000 словоупотреблений.
-
Калмыцкий корпус
Настоящий корпус предназначен для всех, кому интересен калмыцкий язык — для профессиональных лингвистов, специалистов по калмыко- и монголоведению, по лингвистической типологии, для преподавателей калмыцкого языка, составителей калмыцких словарей и грамматик и т. д. Объем корпуса 800000 словоупотреблений.
-
Татарский национальный корпус «Туган тел»
Татарский корпус «Туган тел» является лингвистическим ресурсом современного литературного татарского языка. Объем корпуса нсоставляет более 26000000 словоупотреблений.
-
Корпус удмуртского языка
В настоящий момент размер корпуса составляет около 7300000 словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, около 88% словоформ корпуса имеют грамматический разбор.
-
Башкирский поэтический корпус
"Корпус объёмом более 1800000 словоупотреблений (около 450 тыс. стихотворных строк, более 17 тыс. стихотворений 101 поэта, подробнее о составе корпуса можно почитать здесь). Специфика в том, что текстовую коллекцию составляют стихотворные произведения башкирских поэтов XX и начала XXI века."
Корпуса русского языка
-
Русский учебный корпус
В Русском учебном корпусе содержатся образцы устной и письменной речи двух категорий нестандартных говорящих на русском языке: изучающих русский язык как иностранный и так называемых эритажных говорящих.
-
Корпус русских учебных текстов (КРУТ)
Коллекция текстов на русском языке, написанных студентами разных вузов. Общий объем корпуса составляет около 3100000 слов. Тексты сопровождаются несколькими типами разметки (метатекстовой, морфологической разметкой и разметкой по ошибкам), что позволяет осуществлять поиск по корпусу.
Корпуса других языков
-
Корпус албанского языка
Национальный корпус албанского языка, насчитывающий в настоящее время около 16700000 словоупотреблений. Тексты (относящиеся к художественной литературе и публицистике) снабжены доступной пользователю морфологической (словоизменительной) разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям.
-
Корпус новогреческого языка
Корпус представляет собой коллекцию текстов, дополненных разметкой разного вида и поисковым механизмом. Объём корпуса в настоящий момент составляет 35700000 словоупотреблений.
-
Корпус языка идиш
Информационно-справочная система, основанная на собрании текстов на идише в электронной форме общим объемом около 4000000 словоупотреблений.
-
Аннотированный корпус лувийских текстов
Материал включает иероглифические тексты железного века, а также клинописные тексты бронзового века.
-
Алматинский корпус казахского языка
В настоящий момент размер корпуса составляет около 2000000 словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, 86% словоформ корпуса имеют грамматический разбор.
-
Корпус монгольского языка
Корпус современного монгольского языка предназначен для исследователей-монголистов и типологов. Объём корпуса 1160000 словоупотреблений.
-
Корпус амхарского языка
размер корпуса составляет свыше 23000000 словоупотреблений. Тексты корпуса были размечены с помощью автоматического частеречного анализатора. Корпус представляет собрание текстов со снятой омонимией, т. е. каждой словоформе приписан один наиболее подходящий разбор.
-
Тайский корпус HSE
Корпус включает тексты современного тайского языка объёмом 50000000 словоупотреблений. Тексты собраны из Интернета.
-
Корпус цыганского языка
Корпус языка русских цыган, насчитывающий 600000 словоупотреблений. На данный момент он полностью состоит из текстов, изданных в СССР в 1920-х—1930-х годах.
Сервисы для русского языка
-
Объединенный словарь синонимов
База данных, собранная из 5 русских словарей синонимов, с возможностью поиска по разным полям.
-
Объединенный словарь антонимов
Аналогичная предыдущей база-агрегатор 4 словарей русских антонимов.
-
MyStem+
Здесь портале представлены несколько систем для русского языка, которые осуществляют морфологический анализ текста – теггеры. Системы обучены на 6 миллионом корпусе НКРЯ со снятой омонимией; доступны обученные модели и демо. Сайт в процессе разработки, в будущем планируется дополнительно возможность параллельного тестирования систем и собственный теггер.
-
Синтаксический парсер
"Парсер, выдающий результат в формате ConLL. Можно запустить онлайн на своих файлах или скачать."
-
Словарь русского языка XI–XVII веков
База данных на основе словаря.
-
Транслитератор дореволюционной орфографии
"Веб-сервис, позволяющий перевести текст из дореволюционной орфографии в современную. Старая версия доступна по другому адресу"
-
Сентинет
База данных по тональности прилагательных.
-
Сентинет: игра
"Игра, позволяющая в увлекательной форме разметить тональность прилагательных. Полученная информация поступает в Сентинет."
-
Метафорические употребления глаголов
"Аннотированные примеры метафорических и неметафорических употреблений 10 русских глаголов. Можно посмотреть онлайн или скачать."
-
Чанкер для русского языка
Ресурс позволяет пользователям ознакомиться с методом текстового чанкинга, протестировать систему полного текстового чанкинга для русского языка, а также систему извлечения именных групп. Чанкинг - это частичный синтаксический разбор, метод, который заключается в разбиении текста на синтаксически связанные фрагменты текста - чанки.
-
Разметка ошибок в эритажных текстах
Ресурс позволяет автоматически размечать ошибки в текстах, созданных эритажными носителями русского языка.
-
Тренажёр по академическому письму
Студентам предлагается исправить ошибки в предложениях. При создании тренажёра преподаватели проанализировали письменные работы студентов, выявили самые частые ошибки и подготовили задания на основе реальных текстов.
-
Фейсбук прошлого
Целью проекта было представление корреспонденции писателей в таком виде, чтобы с её помощью можно было получить представление о конкретном дне или персонаже в истории.
Сервисы для других языков
-
Языки России
Коллекции текстов на малых языках России со статистикой объемов собранного материала.
-
База данных Звуки Му
Типологическая база данных по семантической зоне звуков, издаваемых животными. Представлены данные более 20 языков разных языковых семей.
-
База данных синонимов
Цель проекта – сравнение теоретических и компьютерных подходов к изучению синонимии и семантических полей. В проекте используется лексикографический, а также векторно-статистический подход к описанию указанных явлений.
-
Транслитератор для языка идиш
У этой программы есть две функции: нормализация текста на идише и транслитерация из квадратного письма в латиницу.
-
Типологическая база данных адъективной лексики
это инструмент для исследований по лексической типологии, который включает в себя информацию о лексикализации в различных языках ряда признаковых полей (‘острый’ - ‘тупой’, ‘пустой’ - ‘полный’, ‘твердый’ - ‘мягкий’, ‘ровный’, ‘гладкий’, ‘шершавый’ и др.). База может выступать в качестве толкового, переводного и мультиязыкового словаря, а также использоваться для самых разных исследований в области семантики признаковой лексики.
-
Лексика адыгских идиомов на территории РФ
На карте изображены все селения на территории Российской Федерации, где говорят на адыгских языках
-
Числительные языков Америки
Цель исследования: выявление типологических профилей и отнесение исследуемых языков к тому или иному профилю с нанесением полученных типологических особенностей на карту
-
Автоматическое восстановление диакритик
Этот сервис позволяет восстановить диакритики в текстах на малых языках России
-
Сунь-Цзы Искусство войны
"Искусство войны"" Сунь-цзы - один из известнейших древнекитайских военных трактатов об искусстве стратегии и политике. На сайте в электронном формате представлены тексты произведения (на китайском языке), с комментариями и переводами.