База данных синонимов
БД Синонимов
Далёкий
RUS, GER, ENG, FRA, POL, ITA
далекий, дальний, удаленный, отдаленный
fern, weit, entfernt, entlegen, abgelegen
far, far-off, far-away, distant, remote, removed
lointain, distant, éloigné, retiré, reculé
daleki, oddalony, odległy, zdalny, niebliski
lontano, distante, discosto, remoto
Продолжать
RUS
продолжать, улинить, увеличить, продлить, пролонгировать, отсрочить, отложить, медлить, оттягивать, растягивать, тянуть, затягивать, канителиться, копаться, валандаться, возиться
Ломти
FRA
pièce, morceau, tranche, chanteau, fragment, parcelle, partie
Защищать
RUS, ENG, FRA, ITA
охранять, защищать, хранить, уберегать, беречь, сберечь, ограждать, предохранять
difendere, proteggere, preservare, tutelare, salvaguardare, custodire
lointain, distant, éloigné, retiré, reculé
defend, protect, guard, safeguard, shield
Бубнить
RUS
бормотать, бубнить, мямлить, шепелявить, картавить
Класть
RUS
класть, накладывать, всовывать, засовывать, запихивать, сунуть
Гаснуть
RUS
гаснуть, меркнуть, догорать, тухнуть

В ходе проекта мы собрали корпуса для французского, немецкого, итальянского и польского языков. Источниками текстов для всех языков были электронная библиотека “Гутенберг” и статьи Википедии. Все корпуса затем были обработаны при помощи морфологического анализатора TreeTagger (Schmid 1995), чтобы в дальнейших исследованиях можно было использовать информацию о частях речи (члены синонимического ряда как правило принадлежат к одной части речи).
Векторные модели были созданы при помощи утилиты word2vec, а именно её программной реализации в библиотеке gensim. Все модели были обучены при помощи алгоритма Continuous Bag-of-Words, размерность векторов 300, а размер окна -- 2 (слово слева и слово справа). Выбор размера окна также обусловлен спецификой нашего исследования и механикой дистрибутивной семантики: маленькое окно позволяет выявить синонимические связи между словами, а большое окно -- ассоциативные связи. Леммы, встретившиеся в корпусах менее 2 раз, игнорировались.

Французский корпус. Размер корпуса для французского языка -- 749 016 523 токенов, а французская модель знает 1 575 074 различных лемм.
Итальянский корпус. Корпус итальянского языка составляет 391 600 853 токенов, в модели содержится 1 372 046 различных лемм.
Немецкий корпус. Размер корпуса для немецкого языка -- 632 753 910 токенов, в модели ссодержится 1 096 532 различных лемм.
Польский корпус. Корпус польского языка -- самый небольшой по размеру, 124 992 491 токенов. Польская модель на основе польского корпуса знает 1 574 865 различных лемм.

По ссылке вы можете найти скрипт на языке Python, который демонстрирует пример работы с моделями word2vec.
Внимание! При работе с моделями необходимо использовать Python версии 3.

Литература:
Schmid, H. (1995). Treetagger: a Language Independent Part-of-Speech Tagger. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart.

Данная база данных представляет результаты работы научно-учебной группы Школы Лингвистики ФГН НИУ ВШЭ "Мультиязыковая база данных синонимов" – Проект номер 16-05-0054, конкурс научно-учебных групп (НУГ) 2016 года.
Более подробная информация о группе содержится на сайте НУГ.

Цель проекта – сравнение теоретических и компьютерных подходов к изучению синонимии и семантических полей. В проекте используется лексикографический, а также векторно-статистический подход к описанию указанных явлений. В качестве результата ожидается создание базы данных синонимов для нескольких семантических полей в ряде европейских языков, разработка статистических критериев оценки лингвоспецифичности, создание лексических тренажеров для изучения иностранных языков.

Над проектом работали:
В.Ю. Апресян, руководитель, доцент Школы лингвистики НИУ ВШЭ, PhD
- Руководство проектом, распределение функций, курирование теоретической части проекта в аспекте установления состава и структуры семантических полей в русском и английском языках, участие в разработке критериев лингвоспецифичности, участие в руководстве разработкой языковых тренажеров.
Т.И. Резникова, исполнитель, доцент Школы лингвистики НИУ ВШЭ
- Курирование теоретической части проекта в аспекте типологического сопоставления лексики, а также установления состава и структуры семантических полей в немецком и французском языках, участие в разработке критериев лингвоспецифичности, участие в разработке языковых тренажеров для немецкого и французского языков.
Б.В. Орехов, исполнитель, доцент Школы лингвистики НИУ ВШЭ
- Курирование работ по исследованию семантической близости слов компьютерными методами, сравнение теоретических и статистических результатов определения границ, состава и структуры семантических полей; разработка статистических критериев близости синонимов.
А.С. Выренкова, исполнитель, доцент Школы лингвистики НИУ ВШЭ
- Курирование теоретической части проекта в аспекте установления состава и структуры семантических полей в польском и итальянском языках, участие в разработке языковых тренажеров для английского и русского языков.
Зарифян М., студент 3-его курса Школы Лингвистики
- Исследование языкового материала английского языка, участие в разработке языковых тренажеров для английского и русского языков.
Кузьменко Е., студент 4-ого курса Школы Лингвистики
- Исследование языкового материала французского языка, участие в разработке языковых тренажеров для французского языка, участие в разработке статистических критериев близости синонимов.
Полянская Л., студент 3-его курса Школы Лингвистики
- Исследование языкового материала немецкого языка, участие в разработке языковых тренажеров для немецкого языка.
Шалганова Т., студент 3-его курса Школы Лингвистики
- Исследование языкового материала польского языка, участие в разработке языковых тренажеров для польского языка.
Мельник А., студент 2-ого курса Школы Лингвистики
- Исследование языкового материала итальянского языка, участие в разработке языковых тренажеров для итальянского языка.
Микулин Н., студент 3-его курса Школы Лингвистики
- Разработка базы данных для представления результатов проекта

В проекте также были использованы материалы НОСС под руководством Ю.Д. Апресяна и Англо-русского синонимического словаря Ю.Д. Апресяна.