У меня есть корпус, который в основном представляет собой вектор коротких предложений (n> 50), например:
corpus <- c("looking for help in R","check whether my milk is sour or not",
"random sentence with dubious meaning")
Я могу распечатать дендрограмму
fit <- hclust(d, method="ward")
plot(fit, hang=-1)
groups <- cutree(fit, k=nc) # "k=" defines the number of clusters you are using
rect.hclust(fit, k=nc, border="red") # draw dendrogram with red borders around the 5 clusters
и корреляционная матрица
cor_1 <- cor(as.matrix(dtms))
corrplot(cor_1, method = "number")
Насколько я понял - пожалуйста, поправьте меня здесь, если я ошибаюсь - findAssocs()
т.е. корреляция проверяет, встречаются ли два термина в одном документе?
Цель: теперь я не хочу видеть корреляцию, но частота появления двух терминов в одном документе, которые НЕ обязательно соседствуют друг с другом (BigramTokenizer не будет работать). Например: термин A и термин B появляются вместе в 5 разных документах в моем корпусе, независимо от расстояния.
В идеале я хочу создать матрицу частот, аналогичную приведенной выше, и, если возможно, добавить частоты в дендрограмму (аналогично тому, как pvclust()
печатает их числа)
Есть идеи, как этого добиться?