Инструменты преобразования текста в изображение и изображения в текст уже набирают обороты. Как насчет преобразования видео в текст?

Прошло всего несколько месяцев с момента выпуска революционных генераторов искусственного интеллекта, преобразующих текст в изображение, Dall-E2 и MidJourney.

А как насчет видео?

По-видимому, существует совершенно новая (и, вероятно) первая крупномасштабная предварительно обученная модель преобразования текста в видео с открытым исходным кодом под названием CogVideo.

Проще говоря, это инструмент искусственного интеллекта, который может создавать видео, не требуя реальной съемки!

Давайте поговорим об этом подробнее:

  • Что такое CogVideo?
  • Как это работает?
  • Каковы текущие ограничения?
  • Что дальше?

Что такое CogVideo?

Прямо с их демо-сайта CogVideo описывается так:

CogVideo — это крупнейший предварительно обученный преобразователь для преобразования текста в видео в общем домене, который имеет 9,4 миллиарда параметров.

Он использует метод иерархического обучения с несколькими частотами кадров и элегантно и эффективно совершенствует предварительно обученную генеративную модель преобразования текста в изображение (CogView2) для производства текста в изображение.

Это довольно многословно, но взгляните на демо-коллаж из их официального репозитория GitHub.

Довольно круто, правда? Видео выглядят так, как будто они взяты прямо из телевизионной рекламы.

Как это работает

Вот структура иерархической генерации с несколькими частотами кадров в CogVideo.

Входная последовательность включает частоту кадров, текст и маркеры кадров. Входной кадр — это токен-разделитель, унаследованный от CogView2.

Этап 1. Кадры генерируются последовательно в зависимости от частоты кадров и текста.

Этап 2.Сгенерированные кадры повторно вводятся как двунаправленные области внимания для рекурсивной интерполяции кадров. Частоту кадров можно регулировать на обоих этапах. Области двунаправленного внимания выделены синим цветом, а однонаправленные — зеленым.

Есть простое веб-приложение…

Веб-приложение, которое вы можете использовать для целей тестирования, включено в библиотеку приложений машинного обучения Hugging Faces.

Пользовательский интерфейс довольно прост; он состоит из кнопки «Выполнить», ползунка «Начало» и поля «Ввод текста», где вы вводите текстовое описание.

Вот и все. Вот небольшой скриншот из веб-инструмента с небольшим примером подсказки кота, играющего в шахматы.

Что такое "начальное число"?

Семя дает генератору случайных чисел отправную точку. Например, использование -1 по умолчанию приводит к выбору случайного начального числа. Это означает, что даже если все остальные значения одинаковы, выходные данные каждый раз будут меняться. Вводя число, вы даете генератору разрешение дублировать более ранние результаты.

Хорошо, если вы хотите просто произвести впечатление и поэкспериментировать с различными текстовыми подсказками, CogVideo выпустила еще одно демонстрационное веб-приложение, к которому вы можете получить доступ здесь.

Prompt: A smiling woman wearing a red dress.

Вот результат в действии.

Разве это не впечатляет? Это гиперреалистичное видео улыбающейся женщины в красном платье.

Текущие ограничения

Несмотря на то, что последний прогресс CogVideo уже впечатляет, предстоит преодолеть еще много препятствий:

  • Модель AI может генерировать только разрешение 480x480, продолжительность 4 секунды и частоту кадров 8 кадров в секунду.
  • Поскольку модель была обучена с использованием 9 миллиардов наборов данных, начинать с нуля было бы чрезмерно дорого с точки зрения вычислений.
  • Оно еще совсем молодое. Модель не может понять сложную семантику движения из-за недостатка и плохой актуальности наборов данных текст-видео. На сегодняшний день только 41 250 видео составляют самый большой набор аннотированных текстовых видеоданных.
  • Модель принимает на вход только китайский язык. Английский ввод должен быть переведен на упрощенный китайский при подаче в подсказку.

Если вы хотите попробовать это сами, вам, вероятно, придется долго (около часа) ждать создания видео, потому что контейнер объемом 63 ГБ работает на графическом процессоре NVidia A100.

Что дальше?

Хотя CogVideo все еще находится в зачаточном состоянии, видеоролики, которые он может генерировать, немного короткие, но потенциал этой технологии огромен.

Во-первых, он может создавать более реалистичные и реалистичные анимации персонажей для фильмов и видеоигр.

Кроме того, его можно использовать для создания обучающих видеороликов или для автоматического создания видеоконтента из текстовых статей.

Через несколько лет это позволит людям создавать видео из текста без необходимости снимать или редактировать. Последствия огромны — это может навсегда изменить то, как мы создаем и потребляем видеоконтент.

Последние мысли

В целом, CogVideo может стать мощным инструментом для компаний, которые хотят создавать видео без высоких производственных затрат. По мере развития технологии будет интересно посмотреть, насколько хорошо она работает и для каких других приложений ее можно использовать.

Но одно можно сказать наверняка: видеогенераторы AI уже здесь и собираются изменить видеоландшафт, и мне не терпится увидеть, что будет дальше.