0. Введение

Национальный корпус польского языка — вещь достаточно неудобная. Настройки в одном месте, выдача в другом, скачать можно только в html (хотя обещают, что можно и в Excel). Как было славно, если бы можно было сразу собирать в R выдачу и ее там анализировать?

1. API для польского корпуса

Для того, чтобы решить данную проблему я написал API (в этом мне немного помог Даня Алексеевский, спасибо!). Так что я написал на R достаточно неуклюжую, наверное, функцию pl.corpus.

Чтобы не заставлять читателя разбираться в коде, поясню, что в результате в вашем окружении появляется функция pl.corpus со следующими аргументами:

Приведу пример работы функции:

head(pl.corpus("witam"))
head(pl.corpus("An*a", tag = T))
head(pl.corpus("[base = 'witać']"))

Как видно из примеров, функция понимает самые разные запросы:

2. Данные

Данные о польских городах я взял из Википедии. Были выбраны все города с населением больше 35500.

library(lingtypology)
miasta <- read.csv("https://goo.gl/1zZgOa")
map.feature(languages = "Polish",
            popup = miasta$town.names,
            latitude = miasta$lat,
            longitude = miasta$long,
            control = F)

Как видно из кода, для создания данной карты требуется написанный мной пакет lingtypology. Данный пакет позволяет рисовать карты на основе названий языков, вставляет ссылки на данные языки в базе данных Glottolog.

Для дальнейшего исследования следует построить список запросов, которые бы можно было вставить в функцию pl.corpus. Здесь таилось множество проблем, связанных с особенностью корпуса:

head(miasta$query)
[1] [base = 'Będzin']                   
[2] [base = 'Bełchatów']                
[3] [base = 'Biała'] [base = 'podlaski']
[4] [base = 'Białystok']                
[5] [base = 'Bielsko'] [base = 'Biała'] 
[6] [base = 'Bolesławiec']              
119 Levels: [base = 'Będzin'] ... [orth = 'Żar.*' & base = 'żar' & number=pl]

После обработки функцией pl.corpus всех запросов получилась база данных, состоящая из 99129 примеров, полученных по шаблонному запросу:

head(pl.corpus(miasta$query[42], tag = T, n.results = 1000))

3. Обработка данных

Для обработки данных я написал две функции pl.base и pl.case.

pl.base <- function(x){
  out <- c()
  for(j in seq_along(x)) {
    if(grepl("\\[.*:", x[j])){
      out[j] <- unlist(strsplit(unlist(strsplit(x[j], "\\["))[2], "\\:"))[1]
    } else {
      warning(paste0('No tags were found in the query "', x, '"'))
    }}
  return(out)
}
pl.case <- function(x){
  out <- c()
  for(j in seq_along(x)) {
    if(grepl("\\[.*:", x[j])){
      out[j] <- unlist(strsplit(x[j], "\\:"))[4]
    } else {
      warning(paste0('No tags were found in the query "', x, '"'))
    }}
  return(out)
}

Функция pl.base позволяет выделять основу:

pl.base("Wrocławia [Wrocław:subst:sg:gen:m3]")
[1] "Wrocław"

Функция pl.сase позволяет выделять падеж:

pl.case("Wrocławia [Wrocław:subst:sg:gen:m3]")
[1] "gen"

Для дальнейшего анализа понадобиться пакет data.table, который позволяет работать с бальшими файлами и пакет dtplyr, который позволяет удобно обрабатывать данные. Необработанные данные, которые будут дальше анализироваться можно скачать здесь.

library(data.table); library(dtplyr)
df <- fread("moroz2016_polskie_miasta_row_data.csv", header = T)

Создадим новый датафрейм с основами и падежом:

library(tidyverse)
df %>% 
  mutate(base = pl.base(query)) %>% 
  mutate(case = pl.case(query)) %>% 
  select(base, case) %>% 
  group_by(base, case) %>% 
  summarise(number = n()) ->
  base.case
head(base.case)
Source: local data table [6 x 3]

# tbl_dt [6 × 3]
    base  case number
   <chr> <chr>  <int>
1 Będzin   acc      2
2 Będzin   nom    312
3 Będzin   gen    286
4 Będzin  inst      9
5 Będzin   loc    385
6 Będzin   voc      1

Построим простой график:

base.case %>% 
  ggplot(aes(case, number))+
  geom_bar(stat = "identity", position = "dodge", fill = "lightblue")+
  theme_bw()

Для дальнейшей работы необходмо соединить изначальную базу (в переменной miasta) и новые данные (в переменной base.case).

base.case %>% 
  spread(case, number) ->
  base.case
head(base.case)
Source: local data table [6 x 9]

# tbl_dt [6 × 9]
         base   acc   dat   gen  inst   loc   nom
        <chr> <int> <int> <int> <int> <int> <int>
1      Będzin     2     1   286     9   385   312
2   Bełchatów     3    NA   132    33   158   669
3       Biała    20    NA   357    NA    15   183
4   Białystok     3    NA   203    12   582   181
5     Bielsko    NA    NA    90    NA   169   160
6 Bolesławiec     1     4   254    21   284   433
# ... with 2 more variables: voc <int>, `<NA>` <int>

Теперь можно присоединить получившуюся таблицу к уже имеющейся, выкинув первый и последний столбец:

miasta <- cbind.data.frame(miasta[-52,], base.case[-73,])[,-c(6, 14)]
head(miasta)

Надо отметить, что не по всем запросам в корпусе нашлась 1000 примеров, так что абсолютные значения количества падежных форм для каждого города сравнивать между собой несколько бессмысленно. Поэтому заменим все пропущенные значения (NA) на 0, посчитаем сумму абсолютных значений в каждой строчке, а потом переведем абсолютные значения количества падежей в доли.

miasta[is.na(miasta)] <- 0
for(i in 1:nrow(miasta)){
miasta %>%
    select(6:12) %>%
    slice(i) %>% 
    sum() ->
  miasta$n[i]}
for(j in 1:nrow(miasta)){
  miasta %>%
    select(6:12) %>%
    slice(j) %>% 
    prop.table() ->
    miasta[j,6:12]}
head(miasta)

В результате данных операций возникли некоторые неправильные значения NaN. Это связано с тем, что некоторые города в корпусе не распознаны должным образом и имеют один единственный тег ign (Zawiercie, Chojnice). Избавимся от данных строчек:

miasta <- miasta[complete.cases(miasta),]

Теперь все данные (в итоге 116 городов) собраны воедино и можно приступать к анализу.

4. Анализ данных

Во-первых, конечно, хочется посмотреть, какие значения приимают получившиеся доли:

miasta %>%
  gather(case, rate, acc:voc) ->
miasta.for.analysis
miasta.for.analysis_2 <- miasta.for.analysis[,-7]
miasta.for.analysis %>% 
  ggplot(aes(rate, fill = case))+
  geom_histogram(data = miasta.for.analysis_2, fill = "lightgrey", bins = 17)+
  geom_histogram(bins = 17)+
  facet_wrap(~case)+
  theme_bw()

Данный график трудно читать, так что я добавлю такое же, но с отлогарифмированными осями:

miasta.for.analysis %>% 
  filter(rate > 0) %>% 
  ggplot(aes(rate, fill = case))+
  geom_histogram(data = miasta.for.analysis_2, fill = "lightgrey", bins = 17)+
  geom_histogram(bins = 17)+
  facet_wrap(~case)+
  theme_bw() +
  scale_y_log10()

Как следует читать данные графики? Серым цветом обозначена гистограмма1 всей выборки долей, без учета падежа. Цветом же показано, какой вклад вносит каждый падеж в создание общей гистограммы. Исследуя данный график можно сделать два наблюдения:

Первый факт достаточно легко объяснить тем, что в польском латив и элатив маркируется предлогами do и z, управляющими родительным падежом, а эссив маркируется предлогом w, управляющий местным падежом. В целом есть множество разных значений, которые оказались вне данной сильно упрощенной схемы, однако в первом приближении такое объяснение принять можно.

Второй факт следует рассматреть отдельно. Вот список городов с высокой долей разных падежей:

Видимо, Siedlce, действительно представлены так в корпусе, а все остальные названия, видимо, неправильно обрабатывались морфологическим парсером. Избавляемся от них и строим графики заново:

miasta %>% 
  gather(case, rate, acc:voc) %>% 
  filter(rate < 1) ->
  miasta.for.analysis
miasta.for.analysis_2 <- miasta.for.analysis[,-7]
miasta.for.analysis %>% 
  ggplot(aes(rate, fill = case))+
  geom_histogram(data = miasta.for.analysis_2, fill = "lightgrey", bins = 17)+
  geom_histogram(bins = 17)+
  facet_wrap(~case)+
  theme_bw()

И с отлогарифмированной осью:

miasta.for.analysis %>% 
  filter(rate > 0) %>% 
  ggplot(aes(rate, fill = case))+
  geom_histogram(data = miasta.for.analysis_2, fill = "lightgrey", bins = 17)+
  geom_histogram(bins = 17)+
  facet_wrap(~case)+
  theme_bw() +
  scale_y_log10()

Может быть какой-то падеж коррелирует с количеством носителей? (Спасибо Ване Левину за этот вопрос).

library(PerformanceAnalytics)
miasta %>% 
  select(5:12) %>%
  chart.Correlation(histogram = F, pch = ".")

Но все же в моих данных много размерностей, так что нужен способ их уменьшить. Так как данные числовые — PCA. Давайте посмотрим на биплот (более крупный вариант доступен здесь):

library(ggfortify)
miasta.for.pca <- miasta[,6:12]
row.names(miasta.for.pca) <- miasta$town.names
autoplot(prcomp(miasta.for.pca),
         shape = F,
         label = T,
         label.size = 2,
         loadings = T,
         loadings.label = T)+
  theme_bw()

В догонку к графику, обычно принято показывать, какой вклад вносят компоненты в объяснение изменчивости:

summary(prcomp(miasta.for.pca))
Importance of components:
                          PC1    PC2     PC3     PC4      PC5
Standard deviation     0.2278 0.2057 0.08500 0.01083 0.001372
Proportion of Variance 0.5111 0.4166 0.07116 0.00115 0.000020
Cumulative Proportion  0.5111 0.9277 0.99882 0.99998 0.999990
                             PC6       PC7
Standard deviation     0.0007626 3.908e-17
Proportion of Variance 0.0000100 0.000e+00
Cumulative Proportion  1.0000000 1.000e+00

Как видно из summary, уже первые две компоненты объясняют 92 процента всей изменчивости исходных данных.

Что нам говорит график биплот? Видимо, в наших данных нет четких кластеров, т. е. есть ядро и несколько переферий: с одной стороны видны Tarnowskie Góry и т. п., которые имеют максимальную долю в именительном падеже, с другой стороны Ostrów Wielkopolski, который имеет максимальную долю в родительном падеже, с третьей стороны Bydgoszcz, имеющий максимум в местном падеже. Переферия городов, имеющих много форм именительного и родительного падежа, но совсем мало местного падежа, кажется чуть больше.

Создадим переменную, отличающую города по степени переферичности.

miasta$core <- NA
miasta$core[-c(8, 42, 33, 94, 4, 13,22, 2, 46, 97, 31, 38, 39, 99, 77, 29, 56, 7, 73, 27, 64, 51, 63, 16, 20, 45, 112, 90, 3, 18, 114, 88, 72)] <- "core"
miasta$core[c(8, 42, 33, 94, 4, 13,22,2, 46, 97,31, 39, 38, 99, 77, 29, 56, 7, 73, 27, 64, 51, 63, 16, 20, 45, 112, 90, 3, 18, 114, 88, 72)] <- "periphery"
autoplot(prcomp(miasta.for.pca), data = miasta, colour = 'core',  shape = FALSE, label.size = 3)+
  theme_bw()

Видимо, выделенная черта, не связанна с географией.

set.seed(11)
map.feature(languages = "Polish",
            features = miasta$core,
            popup = miasta$town.names,
            latitude = miasta$lat,
            longitude = miasta$long)

Видимо, выделенная черта, не связанна с количеством населения.

miasta %>%
  ggplot(aes(core, ludnosc_.31.12.2014., label = town.names))+
  geom_violin(fill = "lightblue")+
  geom_jitter(width = 0.3)+
  theme_bw()+
  ylab("количество человек (31.12.2014)")


  1. Существует стандартная проблемма с гистограммой, связанная с трудностью формализовать выбор количества ячеек гистограммы. Существует несколько подходов, здесь я выбрал алгоритм из работы (Freedman, Diaconis 1981), согласно которому для исследуемых данных следует использовать 17 ячеек.

