Введение

Вы когда-нибудь хотели, чтобы вы могли создавать реалистичные изображения из любого текстового описания без необходимости точной настройки модели для каждой области или стиля? Если это так, вас может заинтересовать эта новая модель, разработанная исследователями из Исследовательского института OPPO. Модель была разработана с учетом медленного прогресса в области генерации персонализированных изображений с открытым доменом и без тонкой настройки. Девизом разработки этой модели было создание модели, которая не требует точной настройки во время тестирования и требует только одного эталонного изображения для поддержки персонализированного создания одного или нескольких субъектов в любой области. Эта новая модель называется «Субъект-диффузия».

Что такое тематическая диффузия?

Subject-Diffusion — это модель генерации персонализированных изображений с открытым доменом, которая не требует тонкой настройки во время тестирования. Требуется только одно эталонное изображение для поддержки персонализированной генерации одного или нескольких объектов в любой области.

Ключевые особенности предметной диффузии

Subject-Diffusion имеет несколько ключевых особенностей, которые отличают его от других моделей преобразования текста в изображение.

  • Как показано на рисунке выше, он может создавать персонализированные изображения из любого домена, используя только одно эталонное изображение и без тонкой настройки во время тестирования. Он может обрабатывать один или несколько объектов на изображении в зависимости от введенного вами текста, например, животных, цветы, пейзажи, персонажи аниме, абстрактное искусство и т. д.
  • Он может генерировать разнообразные и высококачественные изображения, которые соответствуют введенному тексту, используя структуру на основе диффузии, которая итеративно очищает изображение от шума до реальности.
  • Он может генерировать персонализированные изображения, отражающие намерения и вкусы пользователя, позволяя ему указывать дополнительные ключевые слова или предложения в качестве руководства для процесса создания изображения. Например, если пользователь хочет сгенерировать изображение кота с голубыми глазами и пушистой шерстью, он может просто добавить эти ключевые слова или предложения к исходному текстовому вводу. Затем кодировщик стиля кодирует эти дополнительные входные данные и вводит их в процесс распространения, в результате чего создается персонализированное изображение, соответствующее ожиданиям пользователя.

Возможности/вариант использования Subject-Diffusion

Subject-Diffusion имеет множество потенциальных приложений и вариантов использования в различных областях и сценариях, таких как:

  • Креативный дизайн: Subject-Diffusion может помочь дизайнерам и художникам создавать реалистичные или стилизованные изображения на основе их текстовых идей или набросков, не тратя время и усилия на точную настройку модели для каждой области или стиля. Например, дизайнер может использовать Subject-Diffusion для создания изображения логотипа или плаката из краткого описания или слогана.
  • Образование и развлечение: Subject-Diffusion может помочь учащимся и учителям визуализировать концепции или сценарии из текстов, таких как рассказы, стихи, исторические события, научные факты и т. д. Например, учащийся может использовать Subject-Diffusion. Распространение для создания изображения сцены из романа или фильма, который они изучают или смотрят.
  • Персонализация и настройка: Subject-Diffusion может помочь пользователям создавать персонализированные изображения, отражающие их предпочтения и стили, позволяя им указывать дополнительные ключевые слова или предложения в качестве руководства для процесса создания изображения. Например, пользователь может использовать Subject-Diffusion для создания изображения дома или автомобиля своей мечты на основе простого описания или списка характеристик.

Как работает тематическая диффузия?

Модель Subject-Diffusion сочетает в себе семантику текста и изображения, используя грубое определение местоположения и детальное управление эталонным изображением для повышения достоверности и обобщения объекта. Он также использует механизм контроля внимания для поддержки генерации нескольких субъектов.

Модель основана на алгоритме синтеза изображений с открытым исходным кодом под названием «Стабильная диффузия», который повышает эффективность вычислений за счет выполнения процесса диффузии в низкоразмерном скрытом пространстве с помощью автоматического кодировщика. Автокодировщик кодирует входное изображение в скрытое представление, а затем к скрытому пространству применяется процесс диффузии. Условный шумоподавитель UNet предсказывает шум с текущим временным шагом, скрытым шумом и условиями генерации.

Учебная структура метода Тема-Рассеивание состоит из трех частей. Первая часть — это управление местоположением, которое объединяет информацию о маске во время процесса добавления шума, чтобы улучшить локальное обучение модели в поле положения объекта, повышая точность изображения. Вторая часть — это детальное управление эталонным изображением, состоящее из двух компонентов. Первый компонент интегрирует информацию о сегментированном эталонном изображении с помощью специальных подсказок, изучая веса кодировщика смешанного текста, чтобы улучшить как обобщение подсказок, так и точность изображения. Второй компонент добавляет в сеть UNet новый слой, который получает встраивание патчей сегментированного изображения и информацию о координатах положения. В третьей части добавлено дополнительное контрольное изучение карты перекрестного внимания для поддержки многопредметного обучения.

Как показано на рисунке выше, для скрытой части изображения маска изображения присоединяется к скрытому признаку изображения. Для нескольких объектов накладывается маска изображения с несколькими объектами. Затем объединенная скрытая функция вводится в UNet. Для части текстовых условий создается специальный шаблон подсказок. Затем на уровне внедрения кодировщика текста встраивание «CLS» сегментированного изображения заменяет встраивание соответствующего токена. Кроме того, регулярный контроль применяется к карте перекрестного внимания этих вложений и форме фактической карты сегментации изображения. В части слияния патч-вложения сегментированных изображений и информации о координатах ограничивающей рамки объединяются и обучаются как отдельный уровень UNet.

Оценка эффективности

Создатели модели Subject-Diffusion продемонстрировали превосходную эффективность своего метода по сравнению с другими современными подходами к созданию персонализированных изображений как для одного, так и для нескольких субъектов, используя как количественные, так и качественные меры.

Для генерации одного объекта Subject-Diffusion сравнивался с такими методами, как DreamBooth, Re-Image, ELITE и BLIP-Diffusion. Результаты показали, что Subject-Diffusion значительно превзошел другие методы с точки зрения оценки DINO: 0,711 балла против 0,668 балла DreamBooth. Его оценки CLIP-I и CLIP-T также были немного лучше или сопоставимы с другими алгоритмами без тонкой настройки.

Для генерации нескольких субъектов расчеты сходства изображений с использованием DINO и CLIP-I, а также расчеты сходства текста с использованием CLIP-T были выполнены для всех сгенерированных изображений, предоставленных пользователем изображений и подсказок. Результаты показали, что Subject-Diffusion имеет явные преимущества перед DreamBooth и Custom Diffusion по показателям DINO и CLIP-T, доказывая свою способность более точно фиксировать информацию о предмете изображений, предоставленных пользователями, и одновременно отображать несколько объектов на одном изображении.

Многочисленные качественные и количественные результаты показывают, что метод Subject-Diffusion превосходит другие современные подходы в создании одиночных, множественных и индивидуализированных изображений.

Как получить доступ к этой модели и использовать ее?

Subject-Diffusion — это модель с открытым исходным кодом, к которой могут получить доступ и использовать все, кто интересуется преобразованием текста в изображение. Модель доступна на веб-сайте GitHub, где вы можете найти код, данные и инструкции по запуску модели. Вы также можете использовать онлайн-демонстрацию по ссылке проекта для создания изображений из собственного ввода текста и дополнительных ключевых слов или предложений. Subject-Diffusion находится под лицензией MIT License, что означает, что вы можете использовать его как в личных, так и в коммерческих целях.

Если вам интересно узнать больше о модели Subject-Diffusion, все соответствующие ссылки приведены в разделе «Источник» в конце этой статьи.

Ограничения

Тема-диффузия — инновационная и перспективная модель, но она также имеет некоторые недостатки и трудности, которые необходимо решить.

  • Он изо всех сил пытается изменить атрибуты и аксессуары в изображениях, введенных пользователем, что ограничивает универсальность и применимость модели.
  • Он может создавать несогласованные изображения с высокой вероятностью при создании персонализированных изображений для более чем двух объектов.
  • Это может немного увеличить вычислительную нагрузку при создании мультиконцептных изображений.

Заключение

Subject-Diffusion может генерировать разнообразные и высококачественные изображения, соответствующие введенному тексту, в широком диапазоне доменов и стилей. Он также превосходит другие современные модели преобразования текста в изображение с точки зрения визуального качества, семантической согласованности и разнообразия. Subject-Diffusion — это прорыв в области искусственного интеллекта, поскольку он открывает новые возможности и возможности для творческого дизайна, образования, развлечения, персонализации и настройки.

Исходный
исследовательский документ — https://arxiv.org/abs/2307.11410
исследовательский документ — https://arxiv.org/pdf/2307.11410.pdf
детали проекта — https://oppo-mente-lab.github.io/subject_diffusion/
Репозиторий GitHub — https://github.com/OPPO-Mente-Lab/Subject-Diffusion

Первоначально опубликовано на https://socialviews81.blogspot.com.