Албанский национальный корпус (версия 2011–2016 г.)

Внимание! Корпус переходит на новую платформу!

Дорогие пользователи!

Мы рады представить вашему вниманию новую версию Албанского национального корпуса на базе платформы tsakorpus, размещенную по адресу http://albanian.web-corpora.net/. В дальнейшем новая версия будет активно развиваться и пополняться, а старая версия, размещенная на этом сайте, поддерживаться больше не будет. Предлагаем вам пользоваться новой версией корпуса и сообщать нам о замеченных в ней ошибках.

На этом сайте помещен Национальный корпус албанского языка, насчитывающий в настоящее время около 20 млн словоупотреблений. Тексты (относящиеся к художественной литературе и публицистике) снабжены доступной пользователю морфологической (словоизменительной) разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям. В перспективе планируется внедрение в Корпус других типов разметки.

Корпус предназначен для тех, кто интересуется самыми разными вопросами, связанными с албанским языком, и способен предоставить справочную информацию как профессиональным лингвистам, так и всем, кто в силу профессии или простой любознательности проявляет интерес к албанскому языку и его истории. Глубоко аннотированный и представительный Корпус позволяет быстро обрабатывать большие массивы языкового материала, снабженного переводом и иной лингвистической информацией. Собранный материал может быть использован для научных исследований лексики и грамматики, а также для изучения процессов языковых изменений, происходивших в албанском языке на протяжении предшествующих столетий.

Обращаем внимание пользователей на то, что в настоящее время Национальный корпус албанского языка находится в процессе разработки. Расширяется текстовая база, осуществляется пополнение грамматического словаря и морфологическая разметка текстов. В ближайшей перспективе будет выполняться работа по снятию омонимии в Корпусе. Создателям Корпуса предстоит решить еще ряд важных вопросов, связанных с дальнейшим расширением базы Корпуса: создание подкорпуса устных текстов, добавление текстов, созданных в разные периоды истории албанского языка, а также текстов на диалектах албанского языка и т. д.

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC). В разработке корпуса принимают участие лингвисты из Санкт-Петербурга: М. С. Морозова, М. В. Домосилецкая, А. Ю. Русаков, Е. Д. Бернацкая, А. Г. Сидько, А. В. Коноваленко. В подборе и обработке текстов участвовали М. М. Макарцев (Москва), Д. А. Алексеева (Санкт-Петербург), В. А. Дивеева (Санкт-Петербург), Керим Ондози (Приштина). Система автоматического морфологического анализа UniParser разработана Т. А. Архангельским (Москва). Постоянную консультативную помощь и всестороннюю поддержку оказывает участник различных проектов по разработке языковых корпусов М. А. Даниэль (Москва). Создатели корпуса благодарны издательствам «Onufri» и «ОМ» за помощь в подборе текстов. Корпус создан при финансовой поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика».