Имея честь составить широкий спектр статей, посвященных новейшим исследованиям в области машинного и глубокого обучения в 2019 году (многие из них вы можете найти здесь), я хотел выделить момент, чтобы выделить те, которые я нашел больше всего. интересно. Я также поделюсь ссылками на их реализации кода, чтобы вы могли попробовать свои силы в них.

Контрастное представление дистилляции

В этой статье на арене модельной дистилляции используется семейство контрастных целей для фиксации корреляций и зависимостей выхода более высокого порядка. В этой статье они адаптированы для передачи знаний из одной нейронной сети в другую.



В статье рассматриваются три стадии дистилляции:

  • Сжатие модели
  • Передача знаний из одной модальности (например, RGB) в другую (например, глубина)
  • Объединение ансамбля сетей в единую сеть


Основная идея в контрастном обучении заключается в изучении представления, близкого в некотором метрическом пространстве для положительных пар, при одновременном удалении представлений между отрицательными парами.

Сокращение сети с помощью поиска трансформируемой архитектуры

Это статья на арене сокращения сети. Предлагается применить поиск нейронной архитектуры непосредственно для сети с гибкими размерами каналов и слоев. Сведение к минимуму потерь сокращенных сетей помогает узнать количество каналов.



Карта функций сокращенной сети состоит из K фрагментов карты функций, которые отбираются на основе распределения вероятностей. Потери обратно пропорциональны весам сети и параметризованному распределению.



Подход к обрезке, предлагаемый в этой статье, разделен на три этапа:

  • Обучение необрезанной большой сети с помощью стандартной процедуры обучения классификации.
  • Поиск глубины и ширины небольшой сети с помощью поиска по трансформируемой архитектуре (TAS). TAS нацелен на поиск сети наилучшего размера.
  • Передача информации из необрезанной сети в искомую небольшую сеть с помощью подхода простой дистилляции знаний (KD).

Глубокое обучение - для экспертов, экспертами. Мы используем наш многолетний опыт, чтобы еженедельно доставлять в ваш почтовый ящик лучшие ресурсы для глубокого обучения.

Изучение стратегий увеличения данных для обнаружения объектов

Хотя эта архитектура сама по себе не является модельной архитектурой, в этой статье предлагается создание преобразований, которые можно применять к наборам данных обнаружения объектов, которые могут быть перенесены в другие наборы данных обнаружения возражений. Преобразования обычно применяются во время обучения. Код для обучения с изученной политикой доступен ниже:



В этой модели политика дополнения определяется как набор n политик, которые выбираются случайным образом в процессе обучения. Некоторые из операций, которые были применены в этой модели, включают искажение цветовых каналов, геометрическое искажение изображений и искажение только пиксельного содержимого, находящегося в аннотациях ограничивающей рамки.



XLNet: обобщенное предварительное обучение авторегрессии для понимания языка

XLNet была очень умопомрачительной статьей в области Трансформеров. XLNet - это обобщенный метод предварительного обучения авторегрессии, который позволяет изучать двунаправленные контексты путем максимизации ожидаемой вероятности для всех перестановок порядка факторизации. Он не использует фиксированный прямой или обратный порядок факторизации.



Вместо этого он максимизирует ожидаемую логарифмическую вероятность последовательности относительно всех возможных перестановок порядка факторизации. В результате этих перестановок контекст для каждой позиции может состоять из лексем как слева, так и справа. Двунаправленный контекст фиксируется, поскольку каждая позиция учится использовать контекстную информацию со всех позиций.



Transformer-XL: внимательные языковые модели за пределами контекста фиксированной длины (ACL 2019)

Transformer-XL (что означает сверхдлинный) позволяет изучать зависимости за пределами фиксированной длины без нарушения временной согласованности. Он включает в себя механизм повторения на уровне сегмента и схему позиционного кодирования. TransformerXL изучает зависимость, которая на 80% длиннее, чем RNN, и на 450% длиннее, чем обычные Transformers. Он доступен как на TensorFlow, так и на PyTorch.



Авторы вводят повторение в свою сеть глубокого самовнимания. Вместо того, чтобы вычислять скрытые состояния с нуля для каждого нового сегмента, они повторно используют скрытые состояния, полученные в предыдущих сегментах. Повторно используемые скрытые состояния действуют как память для повторяющегося сегмента.



Это создает повторяющееся соединение между сегментами. Моделирование долгосрочной зависимости становится возможным, потому что информация передается через повторяющиеся соединения. Авторы также вводят более эффективную формулировку относительного позиционного кодирования, которая обобщает длину внимания, которая больше, чем наблюдаемая во время тренировки.

Прогнозирование глубины без датчиков: использование структуры для неконтролируемого обучения на основе видео с монокуляром (AAAI, 2019)

Эта статья посвящена задаче неконтролируемого изучения глубины сцены и движения эго робота, где наблюдение обеспечивается с помощью монокулярных видео. Это достигается путем введения в учебный процесс геометрической структуры. Он включает в себя моделирование сцены и отдельных объектов, движение эго камеры и движения объектов, полученные с видеовходов монокуляра. Авторы также вводят онлайн-метод уточнения.



Авторы представляют модель движения объекта, которая имеет ту же архитектуру, что и сеть движения эго. Однако он специализируется на прогнозировании движения отдельных объектов в 3D.



В качестве входных данных он принимает последовательность изображений RGB. Он дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения состоит в том, чтобы научиться предсказывать векторы преобразования для каждого объекта в трехмерном пространстве. Это создает вид наблюдаемого объекта в соответствующем целевом кадре.

Auto-Keras: эффективная поисковая система по нейронной архитектуре

В этой статье предлагается структура, позволяющая использовать байесовскую оптимизацию для управления морфизмом сети для эффективного NAS. Основываясь на своем методе, авторы создали систему AutoML с открытым исходным кодом, известную как Auto-Keras.



Основным строительным блоком предлагаемого метода является исследование пространства поиска посредством преобразования нейронных архитектур, руководствуясь алгоритмом байесовской оптимизации (BO). Поскольку пространство NAS не является евклидовым пространством, авторы решают эту проблему, создавая функцию ядра нейронной сети. Функция ядра - это расстояние редактирования для преобразования одной нейронной архитектуры в другую.



Интерполяция видеокадров с учетом глубины (CVPR 2019)

В этой статье предлагается метод интерполяции видеокадров, который обнаруживает окклюзию, исследуя информацию о глубине. Авторы разрабатывают слой проекции потока с учетом глубины, который синтезирует немедленные потоки, которые отбирают более близкие объекты, чем те, которые находятся далеко.



Изучение иерархических функций осуществляется путем сбора контекстной информации из соседних пикселей. Выходной кадр затем создается путем деформации входных кадров, карт глубины и контекстных функций на основе оптического потока и ядер локальной интерполяции.



Авторы предлагают модель интерполяции видеокадров с учетом глубины (DAIN), которая эффективно использует оптический поток, локальные ядра интерполяции, карты глубины и контекстные функции для создания высококачественных видеокадров.

OpenPose: двухмерная оценка позы для нескольких людей в реальном времени с использованием полей сродства частей

OpenPose - это система с открытым исходным кодом в реальном времени для двухмерной оценки позы нескольких человек, включая ключевые точки тела, ступни, руки и лица. В этой статье предлагается подход в реальном времени для обнаружения двухмерных позы людей на изображениях и видео.



В этом предложенном методе используются непараметрические представления, известные как поля сродства частей (PAF). Некоторые из авторов этой статьи - представители IEEE. Этот метод принимает изображение в качестве входных данных для CNN и прогнозирует карты достоверности для обнаружения частей тела и PAF для ассоциации частей. В этом документе также представлен аннотированный набор данных стопы с 15 тысячами человеческих стоп.



FastFCN: переосмысление расширенной свертки в магистрали для семантической сегментации

В этой статье предлагается объединенный модуль повышающей дискретизации под названием Joint Pyramid Upsampling (JPU) для замены расширенных сверток, которые требуют много времени и памяти. Он работает, формулируя функцию извлечения карт с высоким разрешением как общую задачу повышения дискретизации.



Метод реализует полностью подключенную сеть (FCN) в качестве магистрали, применяя JPU для повышения дискретизации окончательных карт объектов с низким разрешением, что приводит к картам объектов с высоким разрешением. Замена расширенных витков на JPU не приводит к потере производительности.



Заключение

Надеюсь, это даст вам некоторое представление о сфере исследований в области машинного и глубокого обучения в 2019 году. Я попытался включить как ссылки на исходные статьи, так и их код, где это возможно. Попробуйте свои силы в них и сообщите нам, чего вы достигли.



Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимо от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить лучшие модели машинного обучения.