Когда-то в будущем здесь будет форма выбора, интегрированная с базой данных, а пока просто список со ссылками.
Интернет-коллекция
Перечень списков url
- url_type1.txt – список доменов, которые предположительно полностью написаны на малом языке
- url_type1_by_folders.txt конкретизирует предыдущий список и определяет, где нужно выкачать целиком домен, а где только его подраздел
- url_type2.txt – домены, с которых нужно выкачать конкретные страницы. Файл содержит список таких страниц.
- soc_web.txt – содержит список конкретных страниц из различных соц.сетей
- pdf_type.txt – содержит список страниц, по которым находятся различные doc, pdf, txt для скачивания.
Формат интернет-коллекции
Коллекция представляет собой zip-архив с json файлами.
Каждый json файл – это домен, на котором нашлись тексты на малом языке. Файлы записаны в формете
json-per-line с отступами в 4 пробела, каждая новая строка – это страница с данного домена.
Ниже представлен фрагмент json файла для абазинского языка, тексты для которого были найдены на странице
http://www.abazashta.com/lib/diaspora/5148/
домена www.abazashta.com.
{ "url": "http://www.abazashta.com/lib/diaspora/5148/", "language": "abq", "domain": "www.abazashta.com", "downloaded_by": "Tester", "header": "", "download_date": "2016-02-06 17:18:30.253194", "text": { "13": { "language": "abq", "text": "МГIВА БЗИ “ШАРПНЫ”!" } } }
ВКонтакте-коллекция
Списки сообществ
На самом деле эти списки содержат не только сообщества социальной сети ВКонтакте,
но и страницы пользователей, и просто ссылки на конкретные записи
(пример). Болле того списки могут содержать дубли. Например,
https://vk.com/public1777 и
https://vk.com/tatar_vk ведут на одно и то же сообщество.
Списки были получены автоматически с помощью сервиса Яндекс.XML.
Подробнее про обработку списка и выкачивание текста см.
документацию.
Формат ВКонтакте-коллекции
Коллекция представляет собой zip-архив c json файлами. Каждый json файл – это одно сообщество из социальной сети ВКонтакте. Исключение составляют особенно большие сообщества, которые для удобства дальнейшей работы с ними были разбиты на несколько json-файлов (так, что эти файлы можно теперь прочитать стандартным json-модулем Python). В таком случае внутри zip-архива будет находиться папка, названная по имени сообщества, а внутри папки будут все json-файлы, относящиеся к данному сообществу. Например, для якутского структура коллекции будет выглядеть так:
-
sah_vk_corpus
- club17131866.json
- sakha_news.json
- crimlife_yakutia
- crimlife_yakutia0.json
- crimlife_yakutia1.json
- ...
Внутри каждого json-файла содержатся тексты и комментарии со стены сообщества, написанные на малом языке,
а также информация об авторе (дата рождения, родной город, пол, идентификатор) и дата написания текста.
Идентификатор автора не соответствует id пользователя ВКонтакте, информация анонимизирована, но один и
тот же автор будет фигурировать под одним и тем же id. Пол указан цифрой 1 или 2, где 1 – женский,
2 – мужской. Информация об авторе есть только в тех случаях, когда пользователь её указал и оставил публичной.
В случае, если информация не указана, конкретное поле будет отсутствовать целиком.
Идентификаторы текста (и поста, и комментария) уникальны для текстов внутри сообщества.
Ниже приведён пример json для сообщества Учим аварский язык вместе.
"club40933116": { "name": "Учим аварский язык вместе", "posts": { "143": { "sort": 1357381128, "author": { "bdate": "26.6.1992", "city": "Махачкала", "sex": 1, "id": 11182 }, "language": "ava", "date": "2013-01-05 13:18:48", "text": "гьаналъ ханкlал -мясные хинкал", "comments": {} },