Бурятский корпус

Уважаемые пользователи! Вы находитесь в старой версии Бурятского корпуса. С конца 2021 г. работает новая версия корпуса на платформе Tsakorpus. Она доступна по адресу http://buryat.web-corpora.net/ и в настоящий момент содержит 2,8 млн словоупотреблений. Все обновления разметки и пополнения будут производиться в новой версии. Старая версия обновляться не будет.

Настоящий корпус является лингвистическим ресурсом современного литературного бурятского языка. Он доступен в режиме онлайн с ноября 2012 г. Разрабатываемый корпус адресован широкому кругу пользователей, в первую очередь — лингвистам, специалистам в области монгольского языкознания, профессиональная деятельность, которых относится к сфере науки и образования. Данный ресурс будет полезен и тем, род занятий которых связан с бурятским языком (писатели, работники СМИ, театра, кино, библиотек), а также всем, кто интересуется языком и культурой бурят.

В результате пополнения в сентябре 2014 г. текстовая база Бурятского корпуса (БК) стала включать образцы общественно-публицистического (тексты Интернет-версий СМИ, журнальной периодики) и учебно-научного стилей (научные статьи). Объем корпуса достиг более 2 миллионов 200 тыс. словоупотреблений, зарегистрированных в письменных текстах в основном художественного стиля с их метаописанием. Метаописание текстов включает их основные библиографические и классификационные характеристики. Корпус обеспечен начальной морфологической разметкой входящих в него слов на основе словоизменительных характеристик.

Ввиду того, что данный проект является долгосрочным (многолетним), работы по разработкам его лингвистических инструментариев (начиная с морфологического анализатора и метаописания), усовершенствованию грамматического словаря, пополнению текстовой базы и отладке программного обеспечения ведутся постоянно и поступательно.

Составление лингвистического корпуса бурятского языка осуществлялось при финансовой поддержке научных фондов и ведомств:

Материалы, тексты, проблемы разрабатываемого корпусного проекта стали рассматриваться и обрабатываться исполнителями раньше с опорой на результаты уже разработанных лингвистических корпусов по другим языкам мира. Данные работы ведутся сотрудниками Института монголоведения, буддологии и тибетологии Сибирского Отделения РАН (ИМБТ СО РАН, г. Улан-Удэ)Л. Д. Бадмаевой, О. С. Ринчиновым, Г. Н. Чимитдоржиевой, Ю. Д. Абаевой. Разработчики БК искренне благодарны корпусным и компьютерным лингвистам научных центров Москвы М. А. Даниэлю, Т. А. Архангельскому (НИУ ВШЭ), С. А. Крылову (ИВ РАН) за их большую и постоянную поддержку.

Данный ресурс является основой для его дальнейшего развития на пути к Национальному корпусу бурятского языка (НКБЯ) и служит сохранению отдельной этноязыковой культуры.

Создатели сайта и корпуса открыты для сотрудничества и будут рады отзывам, внимательны к замечаниям и советам по их совершенствованию и дополнению. Они дают себе отчет в том, что в ресурсе в силу его масштабности и новизны имеются погрешности, и недочеты как в программной части, так и в лингвистических базах данных, отладка и корректирование которых требуют координированных работ разных специалистов, что ведет порой к протяженности во времени, поэтому надеются на понимание пользователей корпуса.


Как пользоваться корпусом?

БК обеспечен виртуальной клавиатурой, позволяющей при необходимости набирать бурятские буквы. На сайте она обозначена мини-иконкой под номерами 1 и 2. А метод «тыка», или иначе, некоторая тренировка бесстрашного использования кнопок / вкладок «форма», «лемма», «искать», «очистить», «подкорпус», «настройка выдачи», «поиск в новом окне» и др. дадут пользователю возможность приобрести навыки и решать свои задачи по поиску нужного языкового материала.

Вкладка «форма» позволяет выдать все случаи употребления конкретной словоформы, которую надо набрать в небольшую поисковую строку под самой кнопкой, напр. багшын, досл. «учителя», т. е. родительный падеж имени существительного «учитель», или хэлэжэ, досл. «говоря», соединительное деепричастие от хэлэхэ «говорить, сказать».

Вкладка «лемма», под которой понимается словарная форма слова, позволяет найти все случаи употребления полной парадигмы указанного слова, напр. багша, досл. «учитель». Для этого требуется набрать слово багша снова в очищенную небольшую поисковую строку и, нажав вкладку «лемма», чтобы она закрасилась в оранжевый цвет (такой цвет говорит о ее активации), воспользоваться кнопкой «искать». Тогда система выдаст все случаи употребления слова багша во всех падежах и числах. Также при активации вкладки «лемма» могут быть выданы случаи употребления всей парадигмы спряжения того же глагола хэлэхэ, т. е. как личные (наклонения, время), так и неличные его формы (причастия, деепричастия).

Обеспеченность БК морфологической разметкой дает возможность при подведении курсора узнать грамматические характеристики того или иного слова как частеречная принадлежность и т. п. На данном этапе морфоразметка выполнена на наиболее частотных словоформах, далее она должна расширяться и усовершенствоваться.

В силу того, что для БК использован «движок» Восточноармянского национального корпуса, знакомство с сайтом этого корпуса окажется полезным для заинтересованных пользователей в плане их использования Бурятского корпуса.

Вкладка «подкорпус» позволяет посмотреть списки авторов и текстов, включенных в БК, благодаря выполненному их метаописанию, т.е разметке библиографической информации. Кроме этого, данная кнопка позволяет осуществлять поиск, как по всему корпусу объемом более 2 млн. 200 тыс. слов, т.е. по всем текстам бурятских авторов (всего текстов более 140 единиц), так и по выбранному и подтвержденному пользователем подкорпусу одного или нескольких авторов или текстов, для чего требуется вводить ограничительные либо временные периоды изданий по годам, либо выделять и подтверждать нужного автора или нужный текст.