Комбинирование семантической сегментации и сегментации экземпляров для полного понимания сцены

Сообщество компьютерного зрения предложило новую задачу под названием Паноптическая сегментация. Паноптическая сегментация требует, чтобы сцена не только была семантически разбита, но также требует, чтобы каждый экземпляр класса, скажем, автомобиль или человек, имел уникальную маркировку. Для этого требуется, чтобы алгоритм понимал разницу между аморфными вещами, такими как небо и земля, и счетными вещами, такими как автомобили и люди. Следующая картинка из документа, в котором представлена ​​задача, проясняет различия между разными задачами:

В то время как предыдущие подходы были сосредоточены на использовании эвристических методов для объединения выходных данных для создания паноптической сегментации, Uber Research предложила унифицированную сквозную обучаемую архитектуру под названием UPSNet, которая использует взаимодополняемость между задачами семантической сегментации и сегментации экземпляров для повышения как точности, так и производительности.

Архитектура использует ту же магистраль, что и Mask R-CNN (ResNet с FPN). На вершине этой магистрали есть две параллельные и независимые главы: семантическая голова и голова экземпляра. Наконец, выходы этих двух голов входят в другую головку, называемую паноптической головкой.

Заголовок экземпляра идентичен тому, который используется в Mask-RCNN. В то время как семантическая головка отличается использованием деформируемых извилин, Panoptic Head является основным вкладом в эту статью. Паноптическая головка отвечает за получение конечных результатов путем обработки семантических результатов и результатов экземпляра. Он полностью не содержит параметров и, следовательно, не требует обучения. Здесь происходит следующее: если есть пиксели, для которых нет выходных данных экземпляров, то выходные данные семантической головки принимаются непосредственно для этих пикселей. Для пикселей, у которых есть метка экземпляра и семантическая метка, softmax используется, чтобы определить, следует ли помечать его как этот экземпляр или семантический класс.

Кроме того, авторы также создают логиты для «неизвестного» класса, чтобы избежать ошибочных прогнозов. Обоснование этого состоит в том, что для любого пикселя, если максимум логита для класса 'thing' из семантической головки больше, чем максимум logit из заголовка экземпляра (max (X thing) - max (X stuff) в изображение ниже), то весьма вероятно, что нам не хватает некоторых экземпляров. Следовательно, эти пиксели должны быть помечены как неизвестные.

Это основная идея данной статьи. Это довольно простая идея, но результаты поразительны, и я использовал их в производстве. Я настоятельно рекомендую поиграть с репозиторием https://github.com/uber-research/UPSNet и оставлю вам следующие результаты из статьи:

Ссылка:
UPSNet: Единая сеть панорамной сегментации - Ювэнь Сюн, Ренджи Ляо, Хэншуан Чжао, Руи Ху, Мин Бай, Эрсин Юмер, Ракель Уртасун