Корпус греческого языка

Страница, на которой Вы сейчас находитесь, является веб-интерфейсом Корпуса греческого языка — удобного электронного инструмента для исследования или изучения новогреческого языка. Корпус представляет собой коллекцию текстов, дополненных разметкой разного вида и поисковым механизмом. С помощью панели в правой части окна пользователи могут задавать поисковые запросы, результаты которых появятся в центральной части после нажатия кнопки «Искать». Интерфейс корпуса позволяет задавать запросы вида «найти все примеры употребления словоформы или лексемы X», «найти все предложения, в которых слово X следует за словом Y на расстоянии от 2 до 5», «найти все примеры употребления родительного падежа после предлогов» и многие другие. Подробнее о поисковых возможностях и языке запросов можно прочитать на странице помощи Восточноармянского национального корпуса, платформа которого здесь используется.

Объём корпуса в настоящий момент составляет 35,7 млн словоупотреблений. Большинство текстов составляют выпуски греческих газет начала XXI века (Η Καθημερινή, Μακεδονία, Το Βήμα, Ελευθεροτυπία), но имеются также художественная литература, поэзия, официальная, научная и религиозная литература и переводные тексты, созданные в XX и XIX веках.

Все тексты обладают морфологической разметкой, т. е. при каждом слове указана его лемма (начальная форма) и набор выраженных в слове грамматических значений (падеж, число и т. п.); все эти параметры можно использовать в поисковых запросах. Морфологическая разметка проводилась с помощью электронного грамматического словаря, составленного М. Л. Кисилиером и Т. А. Архангельским, и морфологического анализатора UniParser. Поскольку разметка и отчасти составление грамматического словаря были выполнены автоматически, в грамматической информации могут встречаться ошибки; в настоящий момент мы работаем над повышением качества морфологической разметки. Снятие омонимии в корпусе не проводилось — это значит, что каждой словоформе приписывались все возможные разборы без учёта контекста.

Корпус греческого языка разрабатывается при поддержке Программы фундаментальных исследований Президиума Российской академии наук «Корпусная лингвистика». Мы выражаем признательность создателям Восточноармянского национального корпуса (EANC), которые предоставили нам поисковую платформу.