Объяснение документа: Раздвигая границы ResNets с самостоятельным наблюдением: можем ли мы превзойти контролируемые…

Изучение новых подходов в ReLICv2

В этой статье мы рассмотрим недавнюю статью, которая продвигает вперед состояние самоконтролируемого обучения, опубликованную DeepMind и получившую псевдоним ReLICv2.

В своей публикации «Раздвигая границы ResNets с самостоятельным наблюдением: можем ли мы превзойти контролируемое обучение без меток в ImageNet?», Tomasev et al. представить усовершенствование своей техники, представленной в статье ReLIC под названием «Обучение репрезентациям с помощью инвариантных причинно-следственных механизмов». В основе их метода лежит добавление потери Кульбака-Лейблера-Дивергенции, которая рассчитывается с использованием вероятностной формулировки классической сравнительной цели обучения. Мало того, они также используют усовершенствованную схему увеличения и учатся на успехах других соответствующих публикаций.

Я постарался сделать статью простой, чтобы даже читатели с небольшими предварительными знаниями могли ее прочитать. Без дальнейших церемоний, давайте погрузимся!

Предварительное условие: Самостоятельное и неконтролируемое предварительное обучение компьютерному зрению.

Прежде чем мы углубимся в статью, стоит быстро вернуться к тому, что такое предобучение с самоконтролем. Если вы читали другие истории о самоконтроле от меня или знакомы с самостоятельным предварительным обучением, не стесняйтесь пропустить эту часть.

Традиционно модели компьютерного зрения всегда обучались с помощью обучения с учителем. Это означает, что люди смотрели на изображения и создавали для них всевозможные ярлыки, чтобы модель могла изучить шаблоны этих ярлыков. Например, аннотатор-человек присваивает изображению метку класса или рисует ограничивающие рамки вокруг объектов на изображении. Но, как известно любому, кто когда-либо сталкивался с задачами по маркировке, усилия по созданию достаточного набора обучающих данных высоки.

Напротив, обучение с самоконтролем не требует никаких ярлыков, созданных человеком. Как следует из названия, модель учится контролировать себя. В компьютерном зрении наиболее распространенным способом моделирования этого самоконтроля является получение различных фрагментов изображения или применение к нему различных дополнений и передача измененных входных данных через модель. Несмотря на то, что изображения содержат одинаковую визуальную информацию, но не выглядят одинаково, мы позволяем модели узнать, что эти изображения по-прежнему содержат одну и ту же визуальную информацию, то есть один и тот же объект. Это приводит к тому, что модель изучает похожее скрытое представление (выходной вектор) для одних и тех же объектов.

Позже мы можем применить трансферное обучение к этой предварительно обученной модели. Обычно эти модели затем обучаются на 10% данных с метками для выполнения последующих задач, таких как обнаружение объектов и семантическая сегментация.

Сочетание новых вкладов и знаний

Как и в случае со многими другими методами предварительного обучения с самоконтролем, первый шаг в процессе обучения ReLICv2 — это аугментация данных. В статье авторы впервые упоминают об использовании ранее успешных схем аугментации.

Первые — это аугментации, используемые в SwAV. В отличие от предыдущей работы, SwAV создает не только две разные обрезки входного изображения, но и до 6 обрезков. Их можно сделать разных размеров, таких как 224x244 и 96x96, наиболее удачное количество - два больших кадра и 6 маленьких кадров. Если вы хотите узнать больше о схеме аугментации SwAV, обязательно прочитайте мою историю об этом.

Второй набор ранее описанных дополнений исходит от SimCLR. Эта схема сейчас используется почти во всех газетах в этой области. Изображением манипулируют, применяя случайное горизонтальное отражение, искажение цвета, размытие по Гауссу и соляризацию. Если вы хотите узнать больше о SimCLR, обязательно взгляните на мою статью.

Но ReLICv2 также использует другую технику увеличения: удаление фона с объекта на изображении. Для этого они обучают модель удаления заметного фона на некоторых данных ImageNet без присмотра. Авторы обнаружили, что это увеличение наиболее эффективно при применении с вероятностью 10%.

После того, как изображение увеличено и сделано несколько обрезков, выходные данные передаются через сеть кодировщика и целевую сеть, которые выводят векторы признаков одного и того же измерения. В то время как сеть кодировщика обновляется с использованием обратного распространения, целевая сеть получает обновления посредством расчета импульса, аналогичного фреймворку MoCo.

Общая цель ReLICv2 состоит в том, чтобы изучить сеть кодировщика для создания согласованных выходных векторов для одних и тех же классов. Для этого авторы формулируют новую функцию потерь. Они начинаются со стандартного сравнительного отрицательного логарифмического правдоподобия, в основе которого лежит функция подобия, которая сравнивает якорные представления (основное входное изображение) с положительными примерами (расширенными версиями изображения) и отрицательными. примеры (другие изображения в том же пакете).

Эта потеря дополняется вероятностной формулировкой контрастной цели: расхождением Кульбака-Лейблера между правдоподобием опорного изображения и положительным. Это принуждает сеть не запоминать, что положительные результаты должны располагаться близко друг к другу, а отрицательные – дальше друг от друга, но создает более сбалансированный ландшафт между кластерами, когда удается избежать чрезмерной кластеризации, которая может привести к коллапсу в обучении. Таким образом, этот дополнительный срок убытков можно рассматривать как регулирование. Два термина сопровождаются гиперпараметрами альфа и бета, которые позволяют индивидуально взвешивать два термина потерь.

Добавление всех этих новинок оказалось успешным. Чтобы выяснить, каким образом, давайте подробнее рассмотрим результаты, представленные в статье.

Полученные результаты

Основной момент, который ReLICv2 пытается доказать, как сказано в заголовке статьи, заключается в том, что методы предварительного обучения с самоконтролем сопоставимы только в том случае, если все они используют одну и ту же сетевую архитектуру для сети кодировщика. Для своей работы они решили использовать классический ResNet-50.

При использовании того же ResNet-50 и обучении его линейного слоя на ImageNet-1K с замораживанием всех остальных весов ReLICv2 значительно превосходит существующие методы. Введенное улучшение даже привело к преимуществу в производительности по сравнению с оригинальной бумагой ReLIC.

При сравнении производительности трансферного обучения с другими наборами данных ReLICv2 продолжает демонстрировать впечатляющую производительность по сравнению с другими методами, такими как NNCLR и BYOL. Это еще больше демонстрирует ReLICv2 как новый современный метод самоконтролируемого предварительного обучения. Оценка других наборов данных не часто упоминается в других документах.

Другой показательный график показывает, что классы, изученные ReLICv2, намного ближе друг к другу, чем для других сред, таких как BYOL. Это еще раз показывает, что эти методы могут создавать гораздо более мелкие кластеры, чем другие методы.

Завершение

В этой статье вы узнали о ReLICv2, новом методе самоконтролируемого предварительного обучения, который показал многообещающие экспериментальные результаты.

Включив вероятностную формулировку цели сопоставительного обучения и добавив проверенные схемы расширения, этот метод смог продвинуть вперед область самоконтролируемого предварительного обучения зрению.

Хотя я надеюсь, что эта история дала вам хорошее первое представление о ReLICv2, еще многое предстоит узнать. Поэтому я бы посоветовал вам прочитать статьи самостоятельно, даже если вы новичок в этой области. С чего-то надо начинать ;)

Если вас интересуют более подробные сведения о методе, представленном в статье, не стесняйтесь, напишите мне сообщение в Твиттере, моя учетная запись связана с моим профилем на Medium.

Надеюсь, вам понравилось это бумажное объяснение. Если у вас есть какие-либо комментарии к статье или вы видите какие-либо ошибки, не стесняйтесь оставлять комментарии.

И последнее, но не менее важное: если вы хотите глубже погрузиться в область передового компьютерного зрения, рассмотрите возможность стать моим последователем. Я стараюсь публиковать статью раз в неделю и информировать вас и всех, кто интересуется, о том, что нового в исследованиях компьютерного зрения!

Использованная литература:

[1] Митрович, Йована и др. Обучение представлению через инвариантные причинные механизмы. препринт arXiv arXiv:2010.07922 (2020 г.). https://arxiv.org/pdf/2010.07922.pdf

[2] Томасев, Ненад и др. Раздвигая границы ResNets с самостоятельным наблюдением: можем ли мы превзойти обучение с учителем без меток в ImageNet?. препринт arXiv arXiv:2201.05119 (2022). https://arxiv.org/pdf/2201.05119.pdf