GraphMAE: генеративный метод может быть лучше, чем контрастный, в графическом самоконтролируемом обучении

[KDD2022] GraphMAE: самоконтролируемые автокодировщики маскированных графов [Код]

Введение: генеративное обучение против контрастного обучения

Обучение с самоконтролем извлекает свою собственную контролируемую информацию из большого количества неконтролируемых данных. По сравнению с контролируемым обучением, он использует информацию из самого набора данных для создания псевдометок. Обучение с самоконтролем имеет большой потенциал в качестве дополнения к обучению с учителем с точки зрения репрезентативного обучения [9].

С момента появления MoCo и SimCLR контрастное обучение доминировало в области обучения с самоконтролем на основе графов, и его эффективность в таких задачах, как классификация узлов и классификация графов, намного превзошла генеративные подходы к обучению с самоконтролем. Однако успех контрастивного обучения часто зависит от нескольких факторов.

Высококачественное увеличение данных. GraphCL [5] исследовал эффективность нескольких методов увеличения данных, таких как маскирование атрибутов, выборка подграфов и случайное добавление и удаление ребер. Однако было обнаружено, что эффективное увеличение данных на графиках, как правило, зависит от знания предметной области; например, случайное добавление и удаление ребер полезно для обучения в социальных сетях, но может иметь негативные последствия для молекулярных графов. Таким образом, до сих пор не существует универсального эффективного увеличения данных в графовом контрастном обучении.
Сложные стратегии для стабилизации обучения. Контрастные методы позволяют избежать попадания модели в тривиальное решение с помощью универсальных приемов обучения. Такие методы, как GRACE [8], DGI [7] и GraphCL [5], используют отрицательную выборку в обучении, в то время как BGRL [6] использует асимметричную структуру сети и стратегию экспоненциального скользящего среднего.

Напротив, генеративное обучение с самоконтролем позволяет избежать вышеуказанных зависимостей. Генеративное обучение с самоконтролем направлено на восстановление характеристик и информации самих данных. В NLP (обработка естественного языка) BERT [3] направлен на восстановление замаскированных слов; в CV (Computer Vision) MAE [2] восстанавливает точки пикселей изображений.

Для графов Graph Autoencoder (GAE) реконструирует структурную информацию или особенности узлов графа. Большинство существующих автокодировщиков графов ориентированы на предсказание ссылок и цели кластеризации графов, и поэтому обычно реконструируют структурную информацию графа, т. е. матрицу смежности A. Однако недавние достижения в автокодировании графов сильно отстают от сравнительного обучения, и их производительность в таких задачах, как классификация, неудовлетворительна. SOTA для таких задач, как классификация узлов и классификация графов, основана на контрастном подходе к обучению.

В отличие от предыдущих автокодировщиков графов, GraphMAE обнаружил, что:

простое восстановление функций узлов, поврежденных маской, позволяет автокодировщикам графов превзойти контрастное обучение

Важнейшие разработки GraphMAE заключаются в следующих аспектах:

Реконструкция признаков узла с помощью масок. Существующие автокодировщики графов обычно используют ребра в качестве целей реконструкции, но обычно они плохо работают в последующих задачах классификации.
Процесс декодирования с перемаскированием и GNN в качестве декодера. Существующие автокодировщики графов обычно выбирают MLP в качестве декодера, а поскольку большинство функций узлов графа являются непрерывными векторами, возможности MLP недостаточны для реконструировать признаки узла из результата кодирования.
СКО заменяется масштабированной косинусной ошибкой в качестве функции потерь.

Производительность GraphMAE оценивалась по трем задачам: классификации узлов, классификации графов и предсказанию молекулярных свойств в общей сложности для 21 набора данных разного размера. Экспериментальные результаты показывают, что GraphMAE достигает результатов, сравнимых и даже превосходящих современные оптимальные контрастные методы обучения, не полагаясь на какие-либо методы, такие как увеличение данных.

Это показывает, что генеративное обучение с самоконтролем по-прежнему имеет большой потенциал, и GraphMAE помогает пролить свет на наши дальнейшие исследования в области генеративного обучения на основе графов.

Подробности: как работает GraphMAE

1. Реконструкция узла с помощью [MASK]

Большая часть недавних работ по автокодировщикам графов имеет тенденцию восстанавливать как структурные, так и узловые особенности. Однако эти усилия не привели к значительному прогрессу в автокодировщиках графов, которого добились их коллеги в NLP, CV. В [1] путем фильтрации информации в уже обученной GNN можно сделать MLP сопоставимым с GNN с точки зрения производительности также при классификации узлов. Это показывает важность функций узла в таких задачах, как классификация. Таким образом, GraphMAE использует и использует только реконструированные признаки в качестве цели самоконтролируемого обучения, а эксперименты с задачами классификации также показали, что реконструированные признаки узлов могут предоставить эффективную информацию.

В частности, подобно BERT и MAE, для графа, где X — матрица признаков всех его узлов. Часть случайных узлов выбирается случайным образом, а их характеристики заменяются на [MASK].

2. Декодер GNN с перемаскировкой

Роль декодера состоит в том, чтобы отобразить представление узла H, полученное кодировщиком, обратно в характеристики узла X входных данных. Его дизайн должен зависеть от семантического уровня реконструированной цели X. Например, в NLP обычно достаточно относительно простого декодера (например, MLP), поскольку целью реконструкции является пропущенное слово с богатой семантикой. Однако в CV показано, что в MAE для восстановления пикселей с низкой семантической информацией требуется более сложный декодер (например, модель Transformer).

При обучении по графу декодер восстанавливает относительно небольшое количество информации многомерного вектора. Обычные декодеры либо не используют нейронные сети в качестве декодеров, либо используют MLP. Эти декодеры менее выразительны, в результате чего кодировщики получают представление узлов Hпочти одинаково для ввода X.

Поэтому GraphMAE использует в качестве декодера однослойную графовую нейронную сеть. Декодер GNN может восстанавливать свои собственные входные функции на основе распределения узлов вокруг узла, а не только самого узла, поэтому он может помочь кодировщику изучить информацию высокого уровня.

Кроме того, GraphMAE использует новый подход «перемаскировать». Представление первоначально выбранного узла снова заменяется другим идентификатором маски [DMASK], то есть вектором идентификатора маски декодера. С помощью повторной маскировки и декодера GNN модели предлагается восстановить замаскированный целевой узел через представление его немаскированных соседей.

3. Масштабированная косинусная ошибка

Автоэнкодеры в разных областях исследований по-разному измеряют ошибку реконструкции. В NLP предварительно обученные языковые модели предсказывают замаскированный идентификатор токена в виде кросс-энтропийной ошибки, в то время как MAE в CV напрямую использует среднеквадратичную ошибку (MSE) для предсказания замаскированных пикселей. GraphMAE напрямую реконструирует исходные функции каждого замаскированного узла, а существующие автокодировщики графов для реконструкции характеристик узлов используют среднеквадратичную ошибку (MSE) в качестве функции потерь.

Однако в документе упоминается, что MSE сведена к нулю или ее трудно оптимизировать при обучении, чего может быть недостаточно для значимой реконструкции признаков, поэтому GraphMAE использует косинусную ошибку для измерения эффекта реконструкции. Между тем, масштабированная косинусная ошибка (SCE) введена для дальнейшего улучшения косинусной ошибки. Интуитивно понятно, что для прогнозов с высокой достоверностью соответствующая ошибка обычно меньше 1, а когда коэффициент масштабирования gamma больше 1, ошибка будет уменьшаться до нуля быстрее, что эквивалентно служит для адаптации весов для выборок с разными уровнями сложности. Формально говоря, с учетом исходного входного признака X и выходного сигнала декодера Z масштабированная косинусная ошибка определяется как:

Коэффициент масштабирования — это гиперпараметр, который можно настраивать для разных наборов данных. Масштабированная ошибка также может рассматриваться как адаптивная корректировка веса выборки, когда вес каждой выборки корректируется с различными ошибками реконструкции (аналогично Focal Loss [4]).

Результаты эксперимента

Из приведенных выше результатов GraphMAE превосходит метод контрастного обучения SOTA в среднем для задач классификации узлов, классификации графов и прогнозирования молекулярных свойств.

Заключение

GraphMAE демонстрирует, что генеративное обучение с самоконтролем по-прежнему имеет большой потенциал для обучения графическому представлению. По сравнению с контрастным обучением GraphMAE не использует такие методы, как увеличение данных. Таким образом, генеративное обучение с самоконтролем заслуживает более глубокого изучения в будущих работах по обучению представлению графов [2][9]. Более подробную информацию можно найти в документе и коде.

Статья: GraphMAE: автокодировщики маскированных графов с самоконтролем [Код]