Когда-то в будущем здесь будет форма выбора, интегрированная с базой данных, а пока просто список со ссылками.
Интернет-коллекция
Перечень списков url
- url_type1.txt – список доменов, которые предположительно полностью написаны на малом языке
- url_type1_by_folders.txt конкретизирует предыдущий список и определяет, где нужно выкачать целиком домен, а где только его подраздел
- url_type2.txt – домены, с которых нужно выкачать конкретные страницы. Файл содержит список таких страниц.
- soc_web.txt – содержит список конкретных страниц из различных соц.сетей
- pdf_type.txt – содержит список страниц, по которым находятся различные doc, pdf, txt для скачивания.
Формат интернет-коллекции
Коллекция представляет собой zip-архив с json файлами.
Каждый json файл – это домен, на котором нашлись тексты на малом языке. Файлы записаны в формете
json-per-line с отступами в 4 пробела, каждая новая строка – это страница с данного домена.
Ниже представлен фрагмент json файла для абазинского языка, тексты для которого были найдены на странице
http://www.abazashta.com/lib/diaspora/5148/
домена www.abazashta.com.
{
"url": "http://www.abazashta.com/lib/diaspora/5148/",
"language": "abq",
"domain": "www.abazashta.com",
"downloaded_by": "Tester",
"header": "",
"download_date": "2016-02-06 17:18:30.253194",
"text": {
"13": {
"language": "abq",
"text": "МГIВА БЗИ “ШАРПНЫ”!"
}
}
}
ВКонтакте-коллекция
Списки сообществ
На самом деле эти списки содержат не только сообщества социальной сети ВКонтакте,
но и страницы пользователей, и просто ссылки на конкретные записи
(пример). Болле того списки могут содержать дубли. Например,
https://vk.com/public1777 и
https://vk.com/tatar_vk ведут на одно и то же сообщество.
Списки были получены автоматически с помощью сервиса Яндекс.XML.
Подробнее про обработку списка и выкачивание текста см.
документацию.
Формат ВКонтакте-коллекции
Коллекция представляет собой zip-архив c json файлами. Каждый json файл – это одно сообщество из социальной сети ВКонтакте. Исключение составляют особенно большие сообщества, которые для удобства дальнейшей работы с ними были разбиты на несколько json-файлов (так, что эти файлы можно теперь прочитать стандартным json-модулем Python). В таком случае внутри zip-архива будет находиться папка, названная по имени сообщества, а внутри папки будут все json-файлы, относящиеся к данному сообществу. Например, для якутского структура коллекции будет выглядеть так:
-
sah_vk_corpus
- club17131866.json
- sakha_news.json
- crimlife_yakutia
- crimlife_yakutia0.json
- crimlife_yakutia1.json
- ...
Внутри каждого json-файла содержатся тексты и комментарии со стены сообщества, написанные на малом языке,
а также информация об авторе (дата рождения, родной город, пол, идентификатор) и дата написания текста.
Идентификатор автора не соответствует id пользователя ВКонтакте, информация анонимизирована, но один и
тот же автор будет фигурировать под одним и тем же id. Пол указан цифрой 1 или 2, где 1 – женский,
2 – мужской. Информация об авторе есть только в тех случаях, когда пользователь её указал и оставил публичной.
В случае, если информация не указана, конкретное поле будет отсутствовать целиком.
Идентификаторы текста (и поста, и комментария) уникальны для текстов внутри сообщества.
Ниже приведён пример json для сообщества Учим аварский язык вместе.
"club40933116": {
"name": "Учим аварский язык вместе",
"posts": {
"143": {
"sort": 1357381128,
"author": {
"bdate": "26.6.1992",
"city": "Махачкала",
"sex": 1,
"id": 11182
},
"language": "ava",
"date": "2013-01-05 13:18:48",
"text": "гьаналъ ханкlал -мясные хинкал",
"comments": {}
},