Самоконтролируемое обучение на основе изображений с архитектурой прогнозирования совместного встраивания Махмуд Ассран и др.
Архитектура прогнозирования совместного встраивания на основе изображений (I-JEPA) – это простой и эффективный метод изучения семантических представлений изображений, не полагаясь на ручное дополнение данных. Предсказывая в пространстве представления, I-JEPA сходится быстрее, чем методы реконструкции пикселей, и изучает представления высокого семантического уровня.
Идея I-JEPA состоит в том, чтобы предсказать недостающую информацию в абстрактном пространстве представления и соединить ее со стратегией маскирования нескольких блоков.
Методология
- Общая цель: с учетом блока контекста предсказать представления различных целевых блоков на одном изображении.
- Цели: получают путем преобразования входного изображения в последовательность неперекрывающихся патчей, которые кодируются в представления на уровне патчей. Эти представления затем случайным образом выбираются для получения целевых блоков.
- Контекст: из изображения случайным образом выбирается блок, и все перекрывающиеся области с целевыми блоками удаляются. Этот блок контекста закодирован, чтобы дать представление контекста на уровне исправления.
- Прогнозирование: учитывая выходные данные кодировщика контекста (представление контекста на уровне патча), предсказываются представления целевого блока. Предиктор принимает представление контекста и маркеров маски на уровне патча для каждого прогнозируемого патча в качестве входных данных и возвращает предсказанные представления на уровне патча.
- Потери: в качестве потерь используется расстояние L2 между прогнозируемыми представлениями на уровне исправлений и целевыми представлениями на уровне исправлений.
- Оптимизатор: параметры предиктора и контекстного кодировщика изучаются посредством оптимизации на основе градиента, в то время как параметры целевого кодировщика обновляются с помощью экспоненциального скользящего среднего параметров контекстного кодировщика.
Полученные результаты
- I-JEPA изучает сильные готовые представления без использования созданных вручную расширений представлений.
- I-JEPA конкурирует с инвариантными подходами к предварительному обучению в семантических задачах и обеспечивает лучшую производительность в задачах низкого уровня зрения. Используя более простую модель с менее жестким индуктивным смещением, I-JEPA применим к более широкому набору задач.
- I-JEPA является масштабируемой и эффективной. Прогнозирование в пространстве представления значительно сокращает общий объем вычислений, необходимых для самоконтролируемого предварительного обучения.
Документ: https://arxiv.org/abs/2301.08243