Это два разных метода создания вектора для набора слов.
Векторы будут в разных положениях и разного качества.
Усреднение происходит довольно быстро, особенно если у вас уже есть слова-векторы. Но это очень простой подход, который не улавливает многие оттенки значения - действительно, он полностью игнорирует порядок слов / относительную близость, а акт усреднения может иметь тенденцию «нейтрализовать» контрастирующие значения в тексте.
Doc2Vec
вместо этого тренирует векторы для полных текстов способом, очень похожим на слова-векторы (и часто вместе с векторами слов). По сути, вымышленное слово, назначенное тексту, «плавает» вместе с обучением словарному вектору, как если бы оно было «рядом» со всем другим обучением слов (для этого одного текста). Это немного более сложный подход, но поскольку он использует очень похожий алгоритм (и сложность модели) для одних и тех же данных, результаты многих последующих оценок часто схожи.
Для получения сводных текстовых векторов, улавливающих более тонкие оттенки значения, что подразумевается грамматическими правилами и более сложным использованием языка, могут потребоваться еще более сложные методы, например, с использованием более крупных глубоких сетей.
Не существует единого наиболее эффективного подхода, так как все реальное использование во многом зависит от типа, количества и качества ваших текстов, а также от предполагаемого использования векторов.
person
gojomo
schedule
15.07.2020