I-JEPA: Архитектура прогнозирования совместного встраивания на основе изображений

Самоконтролируемое обучение на основе изображений с архитектурой прогнозирования совместного встраивания Махмуд Ассран и др.

Архитектура прогнозирования совместного встраивания на основе изображений (I-JEPA) – это простой и эффективный метод изучения семантических представлений изображений, не полагаясь на ручное дополнение данных. Предсказывая в пространстве представления, I-JEPA сходится быстрее, чем методы реконструкции пикселей, и изучает представления высокого семантического уровня.

Идея I-JEPA состоит в том, чтобы предсказать недостающую информацию в абстрактном пространстве представления и соединить ее со стратегией маскирования нескольких блоков.

Методология

Общая цель: с учетом блока контекста предсказать представления различных целевых блоков на одном изображении.
Цели: получают путем преобразования входного изображения в последовательность неперекрывающихся патчей, которые кодируются в представления на уровне патчей. Эти представления затем случайным образом выбираются для получения целевых блоков.
Контекст: из изображения случайным образом выбирается блок, и все перекрывающиеся области с целевыми блоками удаляются. Этот блок контекста закодирован, чтобы дать представление контекста на уровне исправления.
Прогнозирование: учитывая выходные данные кодировщика контекста (представление контекста на уровне патча), предсказываются представления целевого блока. Предиктор принимает представление контекста и маркеров маски на уровне патча для каждого прогнозируемого патча в качестве входных данных и возвращает предсказанные представления на уровне патча.
Потери: в качестве потерь используется расстояние L2 между прогнозируемыми представлениями на уровне исправлений и целевыми представлениями на уровне исправлений.
Оптимизатор: параметры предиктора и контекстного кодировщика изучаются посредством оптимизации на основе градиента, в то время как параметры целевого кодировщика обновляются с помощью экспоненциального скользящего среднего параметров контекстного кодировщика.

Полученные результаты

I-JEPA изучает сильные готовые представления без использования созданных вручную расширений представлений.
I-JEPA конкурирует с инвариантными подходами к предварительному обучению в семантических задачах и обеспечивает лучшую производительность в задачах низкого уровня зрения. Используя более простую модель с менее жестким индуктивным смещением, I-JEPA применим к более широкому набору задач.
I-JEPA является масштабируемой и эффективной. Прогнозирование в пространстве представления значительно сокращает общий объем вычислений, необходимых для самоконтролируемого предварительного обучения.

Документ: https://arxiv.org/abs/2301.08243

Гитхаб: https://github.com/facebookresearch/ijepa

I-JEPA: Архитектура прогнозирования совместного встраивания на основе изображений

Методология

Полученные результаты

Вопросы по теме