Коллекции текстов на малых языках


Когда-то в будущем здесь будет форма выбора, интегрированная с базой данных, а пока просто список со ссылками.

Язык Интернет-коллекция ВКонтакте-коллекция
Списки url Коллекция Списки сообществ Коллекция
Абазинский abq_url_lists.zip

(4.22 Кб)

abq_web_corpus.zip

(947.06 Кб)

abq_vk_lists.txt

(355 Б)

abq_vk_corpus.zip

(1.05 Мб)

Аварский ava_url_lists.zip

(15.12 Кб)

ava_web_corpus.zip

(5.03 Мб)

ava_vk_lists.txt

(478 Б)

ava_vk_corpus.zip

(154.84 Кб)

Адыгейский ady_url_lists.zip

(13.02 Кб)

ady_web_corpus.zip

(1.41 Мб)

ady_vk_lists.txt

(961 Б)

ady_vk_corpus.zip

(3.08 Мб)

Арчинский aqc_url_lists.zip

(990 Б)

aqc_web_corpus.zip

(4.31 Кб)

aqc_vk_lists.txt

(38 Б)

Башкирский bak_url_lists.zip

(109.61 Кб)

bak_vk_lists.txt

(21.1 Кб)

bak_vk_corpus.zip

(94.59 Мб)

Бурятский bxr_url_lists.zip

(72.96 Кб)

bxr_web_corpus.zip

(83.67 Мб)

bxr_vk_lists.txt

(5.27 Кб)

bxr_vk_corpus.zip

(4.22 Мб)

Ингушский inh_url_lists.zip

(99.34 Кб)

inh_web_corpus.zip

(4.23 Мб)

inh_vk_lists.txt

(7.72 Кб)

inh_vk_corpus.zip

(9.23 Мб)

Ительменский itl_url_lists.zip

(869 Б)

itl_web_corpus.zip

(1.54 Кб)

Кабардино-черкесский kbd_url_lists.zip

(117.07 Кб)

kbd_web_corpus.zip

(14.81 Мб)

kbd_vk_lists.txt

(2.73 Кб)

Калмыцкий xal_url_lists.zip

(17.59 Кб)

xal_web_corpus.zip

(7.32 Мб)

xal_vk_lists.txt

(4.6 Кб)

xal_vk_corpus.zip

(766.12 Кб)

Карачаево-балкарский krc_url_lists.zip

(16.54 Кб)

krc_web_corpus.zip

(3.41 Мб)

krc_vk_lists.txt

(1.26 Кб)

krc_vk_corpus.zip

(1.48 Мб)

Коми-зырянский kpv_url_lists.zip

(31.23 Кб)

kpv_web_corpus.zip

(9.67 Мб)

kpv_vk_lists.txt

(4.02 Кб)

kpv_vk_corpus.zip

(939.78 Кб)

Коми-пермяцкий koi_url_lists.zip

(5.79 Кб)

koi_web_corpus.zip

(1011.57 Кб)

koi_vk_lists.txt

(757 Б)

koi_vk_corpus.zip

(220.91 Кб)

Корякский kpy_url_lists.zip

(8.32 Кб)

kpy_web_corpus.zip

(455.06 Кб)

kpy_vk_lists.txt

(460 Б)

Кубачи-аштинский kas_url_lists.zip

(1.08 Кб)

kas_web_corpus.zip

(42.85 Кб)

Кумыкский kum_url_lists.zip

(7.79 Кб)

kum_web_corpus.zip

(1.37 Мб)

kum_vk_lists.txt

(483 Б)

Лакский lbe_url_lists.zip

(4.87 Кб)

lbe_web_corpus.zip

(12.53 Мб)

lbe_vk_lists.txt

(47 Б)

Лезгинский lez_url_lists.zip

(18.62 Кб)

lez_web_corpus.zip

(8.23 Мб)

lez_vk_lists.txt

(1017 Б)

lez_vk_corpus.zip

(691.11 Кб)

Литературный даргинский dar_url_lists.zip

(21.36 Кб)

dar_web_corpus.zip

(12.64 Мб)

dar_vk_lists.txt

(1.15 Кб)

Лугово-восточный марийский mhr_url_lists.zip

(52.8 Кб)

mhr_web_corpus.zip

(105.43 Мб)

mhr_vk_lists.txt

(1.56 Кб)

mhr_vk_corpus.zip

(464.43 Кб)

Мансийский mns_url_lists.zip

(2.79 Кб)

mns_web_corpus.zip

(1.96 Мб)

Мокша-мордовский mdf_url_lists.zip

(11.28 Кб)

mdf_web_corpus.zip

(1.24 Мб)

mdf_vk_lists.txt

(274 Б)

mdf_vk_corpus.zip

(14.15 Кб)

Нанайский gld_url_lists.zip

(6.59 Кб)

gld_web_corpus.zip

(331.72 Кб)

gld_vk_lists.txt

(559 Б)

gld_vk_corpus.zip

(2.61 Кб)

Нивхский niv_url_lists.zip

(12.76 Кб)

niv_web_corpus.zip

(998.7 Кб)

niv_vk_lists.txt

(388 Б)

niv_vk_corpus.zip

(751 Б)

Ногайский nog_url_lists.zip

(13.2 Кб)

nog_web_corpus.zip

(2.85 Мб)

nog_vk_lists.txt

(674 Б)

Рутульский rut_url_lists.zip

(1.42 Кб)

rut_web_corpus.zip

(11.53 Кб)

rut_vk_lists.txt

(38 Б)

rut_vk_corpus.zip

(991.58 Кб)

Северноюкагирский ykg_url_lists.zip

(1.41 Кб)

ykg_web_corpus.zip

(7.83 Кб)

ykg_vk_lists.txt

(27 Б)

Табасаранский tab_url_lists.zip

(2.59 Кб)

tab_web_corpus.zip

(83.56 Кб)

tab_vk_lists.txt

(28 Б)

tab_vk_corpus.zip

(2.51 Кб)

Татарский tat_url_lists.zip

(150.19 Кб)

tat_vk_lists.txt

(11.77 Кб)

tat_vk_corpus.zip

(40.81 Мб)

Татский ttt_url_lists.zip

(1.3 Кб)

ttt_web_corpus.zip

(63.87 Кб)

Тофаларский kim_url_lists.zip

(946 Б)

kim_web_corpus.zip

(38.74 Кб)

Тувинский tyv_url_lists.zip

(62.89 Кб)

tyv_web_corpus.zip

(12.85 Мб)

tyv_vk_lists.txt

(11.61 Кб)

tyv_vk_corpus.zip

(31.45 Мб)

Тундровый ненецкий yrk_url_lists.zip

(6.89 Кб)

yrk_web_corpus.zip

(527.15 Кб)

yrk_vk_lists.txt

(85 Б)

yrk_vk_corpus.zip

(6.93 Кб)

Удинский udi_url_lists.zip

(1.19 Кб)

udi_web_corpus.zip

(97.66 Кб)

udi_vk_lists.txt

(37 Б)

udi_vk_corpus.zip

(11.92 Кб)

Удмуртский udm_url_lists.zip

(76.93 Кб)

udm_vk_lists.txt

(23.72 Кб)

udm_vk_corpus.zip

(6.77 Мб)

Хакасский kjh_url_lists.zip

(5.46 Кб)

kjh_web_corpus.zip

(1.3 Мб)

kjh_vk_lists.txt

(99 Б)

kjh_vk_corpus.zip

(139.28 Кб)

Хантыйский kca_url_lists.zip

(1.73 Кб)

kca_web_corpus.zip

(1.11 Кб)

Цахурский tkr_url_lists.zip

(6.66 Кб)

tkr_web_corpus.zip

(121.05 Кб)

tkr_vk_lists.txt

(49 Б)

Чеченский che_url_lists.zip

(142.51 Кб)

che_web_corpus.zip

(111.89 Мб)

che_vk_lists.txt

(10.73 Кб)

che_vk_corpus.zip

(3.33 Мб)

Чувашский chv_url_lists.zip

(91.99 Кб)

chv_web_corpus.zip

(214.09 Мб)

chv_vk_lists.txt

(9.21 Кб)

chv_vk_corpus.zip

(4.95 Мб)

Чукотский ckt_url_lists.zip

(10.43 Кб)

ckt_web_corpus.zip

(5.52 Мб)

ckt_vk_lists.txt

(684 Б)

ckt_vk_corpus.zip

(10.58 Кб)

Шорский cjs_url_lists.zip

(1.71 Кб)

cjs_web_corpus.zip

(255.11 Кб)

Эвенкийский evn_url_lists.zip

(3.12 Кб)

evn_web_corpus.zip

(2 Мб)

evn_vk_lists.txt

(167 Б)

evn_vk_corpus.zip

(165.43 Кб)

Эвенский eve_url_lists.zip

(1.1 Кб)

eve_web_corpus.zip

(4.9 Кб)

eve_vk_lists.txt

(28 Б)

Эрзя-мордовский myv_url_lists.zip

(37.96 Кб)

myv_web_corpus.zip

(5.77 Мб)

myv_vk_lists.txt

(2.21 Кб)

myv_vk_corpus.zip

(542.41 Кб)

Южноалтайский alt_url_lists.zip

(7.11 Кб)

alt_web_corpus.zip

(1.55 Мб)

alt_vk_lists.txt

(585 Б)

alt_vk_corpus.zip

(3.47 Мб)

Южноюкагирский yux_url_lists.zip

(1.91 Кб)

yux_web_corpus.zip

(36.32 Кб)

yux_vk_lists.txt

(24 Б)

yux_vk_corpus.zip

(1.3 Кб)

Якутский sah_url_lists.zip

(250.96 Кб)

sah_vk_lists.txt

(33.32 Кб)

sah_vk_corpus.zip

(81.79 Мб)

Интернет-коллекция

Перечень списков url

  • url_type1.txt – список доменов, которые предположительно полностью написаны на малом языке
  • url_type1_by_folders.txt конкретизирует предыдущий список и определяет, где нужно выкачать целиком домен, а где только его подраздел
  • url_type2.txt – домены, с которых нужно выкачать конкретные страницы. Файл содержит список таких страниц.
  • soc_web.txt – содержит список конкретных страниц из различных соц.сетей
  • pdf_type.txt – содержит список страниц, по которым находятся различные doc, pdf, txt для скачивания.
Подробнее см. документацию

Мы не обрабатывали файлы (pdf_type), а из списка соц.сетей (soc_web) работали только с ВКонтакте.

Формат интернет-коллекции

Коллекция представляет собой zip-архив с json файлами. Каждый json файл – это домен, на котором нашлись тексты на малом языке. Файлы записаны в формете json-per-line с отступами в 4 пробела, каждая новая строка – это страница с данного домена.
Ниже представлен фрагмент json файла для абазинского языка, тексты для которого были найдены на странице http://www.abazashta.com/lib/diaspora/5148/ домена www.abazashta.com.

                
{
    "url": "http://www.abazashta.com/lib/diaspora/5148/",
    "language": "abq",
    "domain": "www.abazashta.com",
    "downloaded_by": "Tester",
    "header": "",
    "download_date": "2016-02-06 17:18:30.253194",
    "text": {
        "13": {
            "language": "abq",
            "text": "МГIВА БЗИ “ШАРПНЫ”!"
        }
    }
}
                
            

ВКонтакте-коллекция

Списки сообществ

На самом деле эти списки содержат не только сообщества социальной сети ВКонтакте, но и страницы пользователей, и просто ссылки на конкретные записи (пример). Болле того списки могут содержать дубли. Например, https://vk.com/public1777 и https://vk.com/tatar_vk ведут на одно и то же сообщество.
Списки были получены автоматически с помощью сервиса Яндекс.XML. Подробнее про обработку списка и выкачивание текста см. документацию.


Формат ВКонтакте-коллекции

Коллекция представляет собой zip-архив c json файлами. Каждый json файл – это одно сообщество из социальной сети ВКонтакте. Исключение составляют особенно большие сообщества, которые для удобства дальнейшей работы с ними были разбиты на несколько json-файлов (так, что эти файлы можно теперь прочитать стандартным json-модулем Python). В таком случае внутри zip-архива будет находиться папка, названная по имени сообщества, а внутри папки будут все json-файлы, относящиеся к данному сообществу. Например, для якутского структура коллекции будет выглядеть так:

  • sah_vk_corpus
    • club17131866.json
    • sakha_news.json
    • crimlife_yakutia
      • crimlife_yakutia0.json
      • crimlife_yakutia1.json
      • ...

Внутри каждого json-файла содержатся тексты и комментарии со стены сообщества, написанные на малом языке, а также информация об авторе (дата рождения, родной город, пол, идентификатор) и дата написания текста. Идентификатор автора не соответствует id пользователя ВКонтакте, информация анонимизирована, но один и тот же автор будет фигурировать под одним и тем же id. Пол указан цифрой 1 или 2, где 1 – женский, 2 – мужской. Информация об авторе есть только в тех случаях, когда пользователь её указал и оставил публичной. В случае, если информация не указана, конкретное поле будет отсутствовать целиком.
Идентификаторы текста (и поста, и комментария) уникальны для текстов внутри сообщества.
Ниже приведён пример json для сообщества Учим аварский язык вместе.

                
"club40933116": {
    "name": "Учим аварский язык вместе",
    "posts": {
    "143": {
        "sort": 1357381128,
        "author": {
            "bdate": "26.6.1992",
            "city": "Махачкала",
            "sex": 1,
            "id": 11182
        },
    "language": "ava",
    "date": "2013-01-05 13:18:48",
    "text": "гьаналъ ханкlал -мясные хинкал",
    "comments": {}
},