Башкирский поэтический корпус

На этом сайте размещён Башкирский поэтический корпус объёмом более 1,8 млн. словоупотреблений (около 450 тыс. стихотворных строк, более 17 тыс. стихотворений 101 поэта, подробнее о составе корпуса можно почитать здесь). Это второй в мире (после русского) поэтический корпус. Его специфика в том, что текстовую коллекцию составляют стихотворные произведения башкирских поэтов XX и начала XXI века.

Тексты в корпусе снабжены морфологической разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям, а также специальной стиховедческой разметкой, позволяющей осуществлять поиск в строках, написанных определённым метром, в зоне рифмовки и т. д. Слова в текстах, показываемых пользователю, имеют перевод на русский язык, что позволяет работать с этой системой не только носителям башкирского языка, но и филологам широкого профиля, стиховедам, лингвистам-типологам.

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC).

Разработка корпуса ведётся сотрудниками Лаборатории компьютерной филологии Башкирского государственного университета при информационной и моральной поддержке Центра лингвистических исследований мировой поэзии Института языкознания РАН. Консультативную помощь и всестороннюю поддержку проекту оказывает чл.-корр. РАН В. А. Плунгян. Неоценимую техническую помощь при вывеске корпуса оказал Т. А. Архангельский.

Грамматический разбор словоформ осуществлён автоматически. Система автоматического морфологического анализа Bashmorph разработана Б. В. Ореховым и А. А. Галлямовым.

С инструкцией по пользованию корпусом можно ознакомиться здесь.