Обзор Lickety Split

arXiv:2304.00186

Проблема: текущие подходы к персонализации преобразования текста в изображение работают медленно.

Решение.
• Точная настройка тысяч моделей на разных объектах
• Образец каждого из них с помощью сгенерированных подсказок
• Обучение метамодели на этих образцах изображений. и изображения объекта

Основная идея статьи заключается в следующем: Ученичество. Это когда модель учится на выходе другой модели, а в данном случае на тысячах разных моделей. Суть подхода вкратце: во-первых, мы собираем большой набор данных с разными объектами и на каждом объекте дорабатываем модели Imagen (мы называем их экспертами), во-вторых, сэмплируем изображения этих объектов с подсказкой, сгенерированной какой-нибудь LLM, а затем мы оцениваем полученные изображения и удаляем неприемлемые. Теперь, используя отфильтрованный набор данных, мы обучаем основанную на Imagen модель SuTI. Он принимает на вход изображения объекта и подсказки, обрабатывает их блоком внимания Re-Imagen и выдает изображения, соответствующие подсказкам, оптимизация, направленная на минимизацию разницы между изображениями, сгенерированными SuTI и изображения, сгенерированные соответствующей экспертной моделью. Вот и все!

ИМХО: мне очень нравится новизна подхода; качество вывода (во всех смыслах) хуже, чем у DreamBooth, хотя он в 000 раз быстрее; некоторые аспекты не описаны должным образом, но автор быстро отвечает.

Привет, ребята! У меня есть доклад на YouTube об упомянутых методах персонализации преобразования текста в изображение, посмотрите его:

Привет всем! «Lickety Split Review» предназначен для того, чтобы дать вам представление о том, о чем статья, за пару минут: мы выделяем проблемы, с которыми сталкиваются авторы, показываем, как они их решают, рассказываем о новизне и даем вам свое скромное мнение о ней. .