Языки России в контакте с русским языком

Исследование устной речи с переключением кодов

На сайте представлен малый корпус устных текстов с единообразной разметкой переключения кодов в четырех языках России: нанайском и ульчском (тунгусо-маньчжурские), горномарийском и мокшанском (уральские).


Корпус состоит из спонтанных устных текстов на каждом из языков, содержащих в том или ином объеме русские фрагменты. Основные жанры текстов: бытовые и фольклорные нарративы, биографические рассказы, этнографические описания. Тексты записаны в ходе экспедиций по документации соответствующих языков, перед рассказчиками стояла задача “говорить на своем языке”.

Разметка переключения кодов включает пословную разметку языка (автохтонный язык vs. русский) и разметку структурных типов переключения кодов.

Тексты и разметка доступны по ссылке в формате файлов ELAN.

Нанайские и ульчские тексты с разметкой по языку (без разметки структурных типов переключения):

Также доступно описание тэгов и метаданные к текстам и социолингвистические сведения о рассказчиках.

Тексты для разметки переключения кодов взяты из полевых коллекций, записанных, расшифрованных (и частично отглоссированных) участниками экспедиций по документации соответствующих языков:

Тексты размечены В.В. Дьячковым (горномарийский), П.С. Плешак (мокшанский), Н.М. Стойновой (нанайский и ульчский), И.А. Хомченковой (горномарийский).

Разметка переключения кодов проведена в рамках проекта РФФИ 18-312-00155 “Переключение кодов в речи русскоговорящих носителей малых языков России: комплексное исследование четырех контактных ситуаций” (рук. Н.М. Стойнова).