Албанский национальный корпус

На этом сайте помещен Национальный корпус албанского языка, насчитывающий в настоящее время около 20 млн словоупотреблений. Тексты (относящиеся к художественной литературе и публицистике) снабжены доступной пользователю морфологической (словоизменительной) разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям. В перспективе планируется внедрение в Корпус других типов разметки.

Корпус предназначен для тех, кто интересуется самыми разными вопросами, связанными с албанским языком, и способен предоставить справочную информацию как профессиональным лингвистам, так и всем, кто в силу профессии или простой любознательности проявляет интерес к албанскому языку и его истории. Глубоко аннотированный и представительный Корпус позволяет быстро обрабатывать большие массивы языкового материала, снабженного переводом и иной лингвистической информацией. Собранный материал может быть использован для научных исследований лексики и грамматики, а также для изучения процессов языковых изменений, происходивших в албанском языке на протяжении предшествующих столетий.

Обращаем внимание пользователей на то, что в настоящее время Национальный корпус албанского языка находится в процессе разработки. Расширяется текстовая база, осуществляется пополнение грамматического словаря и морфологическая разметка текстов. В ближайшей перспективе будет выполняться работа по снятию омонимии в Корпусе. Создателям Корпуса предстоит решить еще ряд важных вопросов, связанных с дальнейшим расширением базы Корпуса: создание подкорпуса устных текстов, добавление текстов, созданных в разные периоды истории албанского языка, а также текстов на диалектах албанского языка и т. д.

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC). В разработке корпуса принимают участие лингвисты из Санкт-Петербурга: М. С. Морозова, М. В. Домосилецкая, А. Ю. Русаков, Е. Д. Бернацкая, А. Г. Сидько, А. В. Коноваленко. В подборе и обработке текстов участвовали М. М. Макарцев (Москва), Д. А. Алексеева (Санкт-Петербург), В. А. Дивеева (Санкт-Петербург), Керим Ондози (Приштина). Система автоматического морфологического анализа UniParser разработана Т. А. Архангельским (Москва). Постоянную консультативную помощь и всестороннюю поддержку оказывает участник различных проектов по разработке языковых корпусов М. А. Даниэль (Москва). Создатели корпуса благодарны издательствам «Onufri» и «ОМ» за помощь в подборе текстов. Корпус создан при финансовой поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика».