Будут ли векторы документа, созданные с помощью Doc2Vec, аналогичны векторам документов, полученным с помощью Word2Vec?

Я наткнулся на несколько сообщений в блогах, в которых говорилось, что векторы документов могут быть сгенерированы не только с помощью Doc2Vec, но также путем усреднения векторов слов, полученных с помощью алгоритма Word2vec. В таком случае будут ли векторы, сгенерированные обоими алгоритмами, одинаковыми? Какой способ создания векторов документов был бы наиболее эффективным и почему?

Любые справочные ссылки в этом отношении будут большим подспорьем !!

Заранее спасибо


person swetha    schedule 15.07.2020    source источник


Ответы (1)


Это два разных метода создания вектора для набора слов.

Векторы будут в разных положениях и разного качества.

Усреднение происходит довольно быстро, особенно если у вас уже есть слова-векторы. Но это очень простой подход, который не улавливает многие оттенки значения - действительно, он полностью игнорирует порядок слов / относительную близость, а акт усреднения может иметь тенденцию «нейтрализовать» контрастирующие значения в тексте.

Doc2Vec вместо этого тренирует векторы для полных текстов способом, очень похожим на слова-векторы (и часто вместе с векторами слов). По сути, вымышленное слово, назначенное тексту, «плавает» вместе с обучением словарному вектору, как если бы оно было «рядом» со всем другим обучением слов (для этого одного текста). Это немного более сложный подход, но поскольку он использует очень похожий алгоритм (и сложность модели) для одних и тех же данных, результаты многих последующих оценок часто схожи.

Для получения сводных текстовых векторов, улавливающих более тонкие оттенки значения, что подразумевается грамматическими правилами и более сложным использованием языка, могут потребоваться еще более сложные методы, например, с использованием более крупных глубоких сетей.

Не существует единого наиболее эффективного подхода, так как все реальное использование во многом зависит от типа, количества и качества ваших текстов, а также от предполагаемого использования векторов.

person gojomo    schedule 15.07.2020
comment
Итак, @gojomo в целом, могу ли я сказать, что усреднение векторов слов для генерации векторов документов является альтернативой doc2vec, но метод, который мы выбираем, зависит от различных факторов, как вы упомянули? - person swetha; 15.07.2020
comment
Да, это альтернативы, но некоторые проекты могут предпочесть тот или иной в зависимости от их данных / целей / ограничений. (В проекте также может использоваться объединение обоих!) Существуют также варианты усреднения - такие как средневзвешенные значения, основанные на важности слов. - person gojomo; 15.07.2020