Новейшая модель обнаружения объектов в серии YOLO, YOLOv7, имеет точность 56,8% AP. В свете этого модель подходит для приложений обнаружения объектов в реальном времени, таких как отслеживание нескольких объектов, автономные транспортные средства, робототехника и анализ медицинских изображений.

Модель YOLOv7 больше фокусируется на оптимизированных модулях и методах оптимизации, которые могут увеличить затраты на обучение, не увеличивая затраты на логические выводы и повышая точность. Эти методы для детекторов объектов в реальном времени могут эффективно использовать вычисления и параметры. Это может сократить примерно 40% параметров и 50% вычислений современных детекторов объектов в реальном времени.

Следующие методы используются для достижения современного уровня производительности YOLOv7:

Повторная параметризация модели

Методы перепараметризации модели объединяют несколько вычислительных модулей в один на этапе логического вывода. Мы можем разделить его на две категории: ансамбль на уровне модуля и ансамбль на уровне модели. Основное внимание в YOLOv7 уделяется повторной параметризации на уровне модуля, которая включает в себя разделение модуля на множество идентичных или непохожих модулей ветвей во время обучения и объединение этих модулей ветвей в один полностью эквивалентный модуль во время вывода.

В запланированной репараметризованной модели было обнаружено, что слой с остаточными или конкатенационными соединениями, его RepConv не должен иметь идентификационного соединения. В этих обстоятельствах он был заменен RepConvN, который не содержит идентификационных соединений.

Масштабирование модели

Масштабирование модели относится к методам масштабирования моделей, чтобы они соответствовали различному вычислительному оборудованию. В методе масштабирования модели обычно используются различные коэффициенты масштабирования, такие как разрешение, глубина, ширина и т. д., чтобы достичь оптимального соотношения объема вычислений, скорости логического вывода и точности.

Масштабирование глубины в моделях, основанных на конкатенации, может изменить выходную ширину вычислительного блока. Это изменяет входную ширину последующего слоя передачи.

Таким образом, для модели, основанной на конкатенации, был разработан подходящий метод масштабирования составной модели. Когда масштабирование по глубине завершено, рассчитывается изменение выходного канала. Затем следует масштабирование коэффициента ширины с таким же количеством изменений на переходных слоях. Это может сохранить свойства и оптимальную структуру модели.

Расширенные сети агрегации эффективных уровней

Для создания эффективных архитектур был разработан подход под названием Extended-ELAN.

Расширенная ELAN (E-ELAN) не меняет градиентный путь передачи исходной архитектуры. Он использует групповую свертку, чтобы увеличить кардинальность добавленных функций. Признаки разных групп в тасовке объединяются и сливаются кардинально. Это может улучшить функции, изученные с помощью карт функций, и улучшить использование параметров и вычислений.

Грубая для вспомогательных и точная для потери отведения:

Ведущий руководитель отвечает за готовый продукт, а вспомогательный руководитель помогает с обучением. Ведущая головка помогает в обнаружении объекта с помощью мягкой маркировки, которая используется для обучения как ведущей, так и вспомогательной головкой. Это достигается с помощью следующих двух методов:

Назначение меток, управляемое ведущей головой, рассчитывается на основе результатов ведущей головы, которая обладает относительно сильными способностями к обучению и лучше представляет распределение и корреляцию между данными и целью. Позволяя вспомогательной головке учиться непосредственно на основе информации, полученной ведущей головкой, ведущая головка может сосредоточиться на изучении остаточной информации, которая еще не изучена.

Назначение меток направляющей головки от грубой к точной рассчитывается на основе результатов, полученных свинцовой головкой, но здесь допускаются более грубые результаты за счет ослабления ограничений. Затем информация поступает во вспомогательную головку, чтобы узнать больше, что позволяет динамически регулировать важность точных и грубых меток в процессе обучения.

Заключение

Здесь авторы вводят методы, чтобы убедиться, что модель работает быстрее как на этапах обучения, так и на этапах тестирования без потери производительности. Методы гарантируют, что модель работает лучше даже на периферийных устройствах.

Ссылка:

https://arxiv.org/pdf/2207.02696.pdf