Imagen: объяснение преобразования текста в изображение Google

Благодаря многомодальному обучению Google опубликовал Imagen, заявив о беспрецедентной степени фотореализма и глубоком уровне понимания языка. Imagen использует мощь моделей большого языка преобразования для понимания текста и опирается на силу моделей распространения при создании изображений с высокой точностью.

Ключевые выводы

Продемонстрируйте преимущества использования больших предварительно обученных языковых моделей
по сравнению с мультимодальными вложениями, такими как CLIP, в качестве текстового кодировщика для Imagen.
Автор обнаружил, что увеличение размера языковой модели в Imagen повышает как точность выборки, так и выравнивание изображения и текста гораздо больше, чем увеличение размера модели распространения изображения.
Расширение обработки шума и методы обработки текста имеют решающее значение при обучении моделей сверхвысокого разрешения.
Предложите Efficient U-Net, новый вариант архитектуры, который проще, быстрее сходится и более эффективно использует память с несколькими важными вариантами дизайна диффузионной архитектуры.
Imagen использует динамическую пороговую обработку, новую технику выборки, позволяющую использовать большие ориентировочные веса без ухудшения качества выборки, наблюдаемого в предыдущей работе.
Они представили DrawBench для более глубокой оценки моделей преобразования текста в изображение, что является комплексным и сложным тестом.

Предыдущие работы

DALLE, GLIDE: для обучения модели используются только текстовые данные изображения.
Imagen использует встраивание текста из больших LM, которые предварительно обучены на текстовых корпусах.

Архитектура Imagen

1. Кодировщик замороженного предварительно обученного текста (T5-XXL/CLIP)

чтобы уловить сложность и композиционность произвольного текста на естественном языке, вводит текст в последовательность вложений.

Однако популярные модели преобразования текста в изображение используют кодировщики текста, обученные парным данным изображения и текста, с целью кодирования визуально семантических и значимых представлений, особенно важных для задачи создания преобразования текста в изображение. Напротив, Imagen использовал большие языковые модели, обученные только текстовому корпусу, в качестве текстовых кодировщиков для преобразования текста в изображение.

Кроме того, использование кодировщиков замороженного текста имеет несколько преимуществ, таких как автономное вычисление вложений, что приводит к незначительным вычислениям или объему памяти во время обучения модели преобразования текста в изображение.

2. Каскадные диффузионные модели

to map для сопоставления встраивания текста с изображением.

Диффузионные модели — это класс генеративных моделей, которые преобразуют гауссовский шум в выборки из изученного распределения данных с помощью итеративного процесса шумоподавления. Эти модели могут быть условными, например, на метках классов, тексте или изображениях с низким разрешением.

Imagen использует конвейер базовой модели 64 × 64 и две текстовые модели диффузии сверхвысокого разрешения для повышения дискретизации сгенерированного изображения 64 × 64 до изображения 256 × 256, а затем до изображения 1024 × 1024.

Модель распространения текста в изображение: для встраивания текста в создание изображения 64x64.
Модель диффузии со сверхвысоким разрешением (A) для создания изображений 256 x 256 из изображений 64 x 64.
Другой режим рассеивания со сверхвысоким разрешениемl (B) для создания изображений 1024×1024 из изображений 256×256.

Все модели распространения в Imagen обусловлены последовательностью встраивания текста и используют управление без классификатора.

Управление классификатором – это метод повышения качества выборки при одновременном уменьшении разнообразия в моделях условной диффузии с использованием градиентов из предварительно обученной модели p(c|zt) во время выборки. Руководство без классификатора – это альтернативный метод, который позволяет избежать этой предварительно обученной модели, вместо этого совместно обучая одну диффузионную модель на условных и безусловных целях путем случайного отбрасывания c во время обучения (например, с вероятностью 10 %). Imagen критически зависит от руководства без классификатора для эффективного преобразования текста.

Imagen полагается на новые методы выборки, позволяющие использовать большие ориентировочные веса без ухудшения качества выборки, наблюдаемого в предыдущей работе, что приводит к изображениям с более высокой точностью и лучшему выравниванию изображения и текста, чем это было возможно ранее.

Трюк с выборкой:

Авторы обнаружили, что увеличение веса наведения без классификатора улучшает выравнивание изображения и текста, но ухудшает точность изображения, создавая очень насыщенные и неестественные изображения из-за несоответствия тестов поезда, возникающего из-за больших весов наведения. Чтобы противостоять этой проблеме, они исследовали:

Статическое пороговое значение

Это просто поэлементное отсечение x-прогноза до [−1, 1], но не подчеркивалось в предыдущих работах, а также в контексте управляемой выборки. Было обнаружено, что статическая пороговая установка необходима для выборки с большими весовыми коэффициентами и предотвращает создание пустых изображений. Тем не менее, статическая пороговая обработка по-прежнему приводила к перенасыщенным и менее подробным изображениям по мере дальнейшего увеличения веса наведения.

2. Динамическое пороговое значение.

Они ввели новый метод динамического порога: на каждом шаге выборки s устанавливается в определенное процентильное абсолютное значение пикселя. И если s>1, то значение пикселя ограничивается диапазоном [-s, s], а затем делится на s. Этот метод сдвигает насыщенные пиксели (близкие к -1 и 1) внутрь, тем самым активно предотвращая насыщение пикселей на каждом шаге. Было обнаружено
, что динамическая пороговая установка приводит к значительно лучшему фотореализму, а также к лучшему выравниванию изображения и текста, особенно при использовании очень больших наводящих весов.

Imagen использует сохраняющую дисперсию аугментацию гауссового шума для обеих моделей со сверхвысоким разрешением, напоминающую прямой процесс, используемый в моделях диффузии, который, по мнению авторов, имеет решающее значение для создания изображений с высокой точностью.

Учитывая кондиционирующее изображение с низким разрешением и уровень увеличения ∈ [0, 1] (например, интенсивность гауссовского шума или размытия), изображение с низким разрешением искажается увеличением, а модель диффузии обусловлена уровнем увеличения. Во время обучения уровень увеличения выбирается случайным образом, а во время логического вывода исследуются различные значения уровня, чтобы найти наилучшее качество выборки.

Архитектура диффузионных моделей:

Архитектура модели U-Net использовалась как в модели преобразования текста в изображение, так и в моделях сверхвысокого разрешения.

А. Базовая модель:

Архитектура U-Net использовалась для базовой модели диффузии текста в изображение 64 × 64, обусловленной встраиванием текста через объединенный вектор встраивания, добавленный к встраиванию с временным шагом диффузии. Вся последовательность встраивания текста была обусловлена добавлением перекрестного внимания к встраиваниям текста при различных разрешениях. Они обнаружили, что нормализация слоев для встраивания текста в уровни внимания и пула помогает значительно повысить производительность.

Б. Модели со сверхвысоким разрешением:

Для сверхразрешений 64 × 64 → 256 × 256 они использовали Efficient U-Net: модификации предыдущих реализаций модели U-Net с улучшениями эффективности памяти, времени вывода и скорости сходимости, что делает вариант 2 В 3 раза быстрее по шагам в секунду по сравнению с предыдущими реализациями.

Для супер-разрешения 256 × 256 → 1024 × 1024 они обучили модель на кадрах 64 × 64 → 256 × 256 изображения 1024 × 1024, удалив слои само-внимания, но сохранив слои перекрестного внимания текста, которые, как было обнаружено, быть критическим. Во время логического вывода модель получает полные изображения с низким разрешением 256 × 256 в качестве входных данных и возвращает изображения с увеличенной дискретизацией 1024 × 1024 в качестве выходных данных. Обратите внимание, что перекрестное внимание к тексту использовалось для обеих моделей со сверхвысоким разрешением.

Оценка человека

Хотя FID и CLIP широко используются для оценки преобразования текста в изображение, эти оценки имеют ограничения, например, FID не полностью соответствует качеству восприятия, а CLIP неэффективен при подсчете. Из-за этих ограничений авторы также использовали человеческую оценку для оценки качества изображения и подобия подписи, взяв за основу пары «заголовок-изображение». Они использовали два экспериментальных сценария:

Чтобы проверить качество изображения, оценщика просят выбрать между созданием модели и эталонным изображением, используя вопрос: «Какое изображение более фотореалистично (выглядит более реальным)?». Мы сообщаем о проценте случаев, когда оценщики выбирают поколения моделей вместо эталонных изображений (коэффициент предпочтения).
Чтобы проверить выравнивание, людям-оценщикам показывают изображение и подсказку и спрашивают: «Точно ли подпись описывает изображение выше?». Они должны отвечать «да», «отчасти» или «нет». Эти ответы оцениваются как 100, 50 и 0 соответственно. Эти рейтинги получают
независимо для образцов моделей и эталонных изображений, и оба они представляются в отчете.

В обоих случаях они используют 200 случайно выбранных пар изображений и подписей из набора проверки COCO. Испытуемым показывали партии из 50 изображений. Они также использовали чередующиеся «контрольные» испытания и включали только оценочные данные тех, кто правильно ответил не менее чем на 80% контрольных вопросов. Это дало 73 и 51 оценку на изображение за качество изображения и оценки выравнивания изображения и текста соответственно.

DrawBench

Хотя COCO является ценным эталоном, становится все более очевидным, что он имеет ограниченный спектр подсказок, которые не сразу дают представление о различиях между моделями.

Они представили новый структурированный набор текстовых подсказок, предназначенных для исследования различных семантических свойств моделей для оценки преобразования текста в изображение, что позволяет получить более глубокое понимание посредством многомерной оценки моделей преобразования текста в изображение.

Различные семантические свойства включают композиционность, количество элементов, пространственные отношения, возможность обработки сложных текстовых подсказок или подсказок с редкие слова, и они включают творческие подсказки, которые раздвигают границы способности моделей создавать крайне неправдоподобные сцены, выходящие далеко за рамки обучающих данных.

DrawBench содержит 11 категорий подсказок, проверяющих различные возможности моделей, такие как способность точно отображать разные цвета, количество объектов, пространственные отношения, текст в сцене и необычные взаимодействия между объектами. Категории также включают сложные подсказки, включая длинные запутанные текстовые описания, редкие слова, а также подсказки с ошибками. Они также включали наборы подсказок, собранные у DALL-E, Гэри Маркуса и др. и Реддит. В этих 11 категориях DrawBench включает в общей сложности 200 подсказок, обеспечивая хороший баланс между стремлением к большому, всеобъемлющему набору данных и достаточно малым, чтобы человеческая оценка оставалась возможной.

Эксперименты

Они обучили модель параметров 2 Б для 64 x 64 с помощью оптимизатора Adafactor, чтобы уменьшить объем памяти для синтеза текста и изображения, а также модели параметров 600 М и 400 Млн для 64 x 64 → 256 x 256. и 256 × 256 → 1024 × 1024 для сверхвысокого разрешения соответственно. Однако было обнаружено, что Adafactor ухудшает качество модели при начальных абляциях, и Adam использовался для оптимизации моделей сверхвысокого разрешения.

Они использовали размер партии 2048 и 2,5 млн шагов обучения для всех моделей. 256 чипов TPU-v4 использовались для базовой модели 64 × 64, а 128 чипов TPU-v4 использовались для обеих моделей со сверхвысоким разрешением.

Они также упомянули, что не обнаружили проблем с переоснащением во время обучения, и они считают, что дальнейшее обучение с большим количеством эпох может улучшить общую производительность, а не переоснащение.

Для руководства без классификатора они безоговорочно тренируются путем обнуления встраивания текста с вероятностью 10 % для всех трех моделей.

Обучение проводилось на их внутренних наборах данных пар изображение-текст в сочетании с набором данных Laion.

В рамках активной разработки: предложения/комментарии будут высоко оценены!