Сверточные нейронные сети (CNN) были вдохновлены зрительными системами животных, чтобы искусственно выполнять задачи, основанные на зрении, такие как классификация изображений и распознавание объектов. Эти CNN со временем претерпели значительные изменения, оптимизируя каждую проблему, с которой они сталкиваются. Насколько сегодняшние сети похожи на зрительную кору головного мозга животных? Что ж, короткий и простой ответ заключается в том, что они совсем не похожи. В этой статье я обсуждаю более длинный ответ и недавние попытки сделать эти CNN более «мозгоподобными».

Оглавление

  1. Мотивация
  2. Брейн-Счет
  3. КОРНЕТ-С
  4. Моделирование V1
  5. Совмещение ИТ-представлений
  6. Прощальные мысли

Некоторая мотивация

CNN и другие модели Computer Vision добились огромных успехов в последние годы, поскольку они приближаются к человеческим возможностям (а иногда и превосходят их) в определенных визуальных задачах (нажмите здесь, чтобы прочитать мою предыдущую статью, в которой содержится дополнительная информация о CNN). Однако, получив правильный ответ (в основном) на вопрос: Что вы здесь видите? когда представлено изображение с четким предметом, это не все, что могут сделать люди. Мы можем выполнять гораздо более широкий спектр задач в визуальной области. Мы способны понимать визуальные сцены, когда в наше рецептивное поле поступает множество стимулов, и очень быстро схватываем сложные отношения между объектами в сцене. Мы также можем очень хорошо обобщать. Например, если человек никогда в жизни не видел собак определенной породы и сталкивается с ней впервые, он с уверенностью может назвать ее собакой благодаря своему предварительному пониманию того, как должна выглядеть собака. То же самое нельзя сказать об эквивалентах наших нейронных сетей. Помимо проблемы обобщения, существует маленькая проблема, заключающаяся в том, что эти сети учатся только после того, как получают НАМНОГО больше точек данных, чем люди (на порядки больше). И, наконец, CNN очень восприимчивы к атакам со стороны противника.

Состязательные атаки — это способ обмануть CNN, минимально изменив входные данные. Возьмем, к примеру, приведенную ниже схему. Когда изображение панды слегка изменено гауссовским шумом, модель не может его распознать, тогда как мы можем сказать, что оба изображения являются изображениями панды без потери нашей уверенности.

Все эти вышеупомянутые факторы говорят нам о том, что CNN изучают визуальные особенности и представления, которые сильно отличаются от наших собственных. Другими словами, эти модели учатся видеть способами, которые значительно отличаются от того, как эволюция научила видеть мозг приматов. Это длинный ответ на вопрос, который я задал в начале — мы все еще очень далеки от создания CNN, подобных мозгу. Теперь, как мы можем это изменить? В оставшейся части этой статьи я буду рассматривать самые недавние попытки в исследованиях ИИ и нейронауки решить этот вопрос. Большая часть работы, о которой я расскажу в этой статье, принадлежит талантливым людям из лаборатории ДиКарло в Массачусетском технологическом институте.

Оценка мозга

Первая статья, о которой я хочу рассказать, это та, которая представляет Brain-Score. Основным вкладом статьи является эталон для оценки того, насколько мозгоподобна модель зрения — Brain-Score. Эту работу стоит упомянуть, поскольку она дает нам способ количественно оценить, насколько работа нейронной сети похожа на работу мозга приматов. Оценка выполняется путем оценки модели с точки зрения нейронной и поведенческой предсказуемости. Проще говоря, модель оценивается по тому, насколько хорошо она способна моделировать или предсказывать нейронные и поведенческие реакции мозга приматов (в статье используются нейронные данные макак) при рассмотрении определенного стимула. Чем больше предсказуемость, тем больше модель похожа на мозг приматов в этом конкретном смысле.

Нейронная предсказательность определяет, насколько хорошо внутренние представления модели соответствуют внутренним представлениям мозга приматов. Это достигается с помощью простой линейной регрессии, описанной в статье. Для этой метрики используются нейронные данные обезьян V4 и нижневисочной коры регионов.

Прогнозирование поведения вычисляет, насколько похожа поведенческая реакция модели по сравнению с человеком или обезьяной при предъявлении визуальной задачи (например, когда они допускают ошибки и неправильные классификации). Метод, используемый для вычисления подобия, называется I2n, который включает в себя пошаговые схемы сложности изображения, разбитые на альтернативы выбора объекта. Для получения более подробной информации об этой метрике, пожалуйста, обратитесь к статье, которая хорошо объясняет сложность метрики. На данный момент мы можем просто махнуть рукой и сказать, что мы получили оценку, которая говорит нам, насколько результат модели похож на человеческий, когда их просят выполнить одну и ту же задачу с одними и теми же данными. Окончательный Brain-Score представляет собой среднее значение нейронной прогнозируемости V4, нейронной прогнозируемости IT и прогнозируемости Behavioral I2n.

На приведенном выше рисунке показано, насколько популярные и недавние CNN работают в Brain-Score по сравнению с точностью их классификации. Основная тенденция, которую это показывает, заключается в том, что по мере того, как со временем производительность увеличивалась, эти модели также демонстрируют большее сходство с мозгом. Тем не менее, эта тенденция начала снижаться ближе к концу, когда наши недавние очень большие сети работают очень хорошо. Это говорит о том, что последние модели изучают представления, которые все больше отдаляются от представлений в мозгу приматов, несмотря на их улучшенные характеристики.

Вы можете просмотреть текущие ведущие модели мозга здесь, на brain-score.org. Brain-Score — важное новшество в этой области, поскольку нам нужна универсальная метрика, чтобы решить, насколько мозгоподобна модель, прежде чем мы сможем начать сравнивать способы сделать модель более мозгоподобной.

КОРНЕТ-С

В документе Распознавание объектов, подобных мозгу, с помощью высокопроизводительных мелких рекуррентных ИНС представлена ​​CORnet-S (репозиторий для модели), которая представляет собой неглубокую нейронную сеть с ключевой особенностью, которая отличает ее от остальных CNN. мы видим сегодня — он состоит из четырех анатомически сопоставленных областей и повторяющихся соединений.

CORnet-S разделен на блоки, которые аналогичны областям коры головного мозга, которые, как считается, имеют решающее значение для визуальной обработки в визуальной неврологии. Это области V1, V2, V4 и IT (нижняя височная кора). Схема в каждом блоке выполняет обычные вычисления CNN, такие как свертка, сложение, функции активации, нормализация и объединение. Однако размеры каждого слоя пропорциональны предполагаемой нейронной популяции в аналогичной области мозга. Традиционно CNN не имеют прямой связи — это означает, что вывод слоя идет только к следующему слою. Однако нейронные слои мозга часто рекуррентны, а это означает, что в сети есть связи, которые могут идти в обратном направлении, например, когда слой использует свой собственный вывод в качестве входа. Это также реализовано в КОРнет-С между слоями в каждом блоке.

CORnet-S — это наиболее близкое приближение к анатомии имеющейся у нас вентральной зрительной системы, сравнимое по производительности с современными нейронными сетями в области обработки изображений. По этой причине модель уже очень хорошо работает на Brain-Score. Дополнительное преимущество сопоставления областей мозга с блоками в нейронной сети будет видно в более поздних статьях, которые я обсуждаю, поскольку это позволяет воздействовать на конкретные области мозга.

Моделирование зрительной коры в передней части CNN

Стремясь преодолеть разрыв между первичной зрительной корой приматов и CNN, Dapello et al.. разработали VOneNet — биологически ограниченную нейронную сеть, которая имитирует область мозга V1 на переднем конце CNN. Этот биологически вдохновленный фронт CNN называется VOneBlock, и его можно подключить вместо ранних слоев любой современной модели видения CNN. Поскольку ранее установленный CORnet-S имеет выделенный блок V1, легко решить, куда подключить VOneBlock.

В основе VOneBlock лежит популярная нейронаучная модель области V1 — линейно-нелинейно-пуассоновская (ЛНП) модель (Википедия). Этот блок строится в три этапа: свертка, генератор нелинейности и стохастичности, что напоминает большинство блоков CNN (за исключением случайности).

Сверточный слой представляет собой банк фильтров Габора, настроенный для аппроксимации эмпирических нейронных данных V1 приматов. Это, по сути, пытается захватить те же низкоуровневые функции, которые захватывает примат V1. Второй слой выполняет традиционные функции нелинейности на основе одного из двух возможных типов ячеек (простых и сложных). Наконец, последний стохастический слой добавляет в сети характерную случайность нейронных всплесков. Это было установлено, когда повторные измерения нейрона в ответ на идентичные визуальные входные данные в конечном итоге давали разные последовательности спайков в нейронных экспериментах. Эмпирические данные показывают, что последовательность спайков для каждого испытания может быть аппроксимирована распределением Пуассона.

Благодаря этим трем компонентам, составляющим VOneBlock и включенным в CNN, получающаяся в результате VOneNet работает значительно лучше в ключевом аспекте, похожем на людей, — подверженности враждебным атакам. На приведенном выше графике показан прирост производительности, когда эти сети подвергаются атакам злоумышленников различной силы.

Эта статья дает нам ключевое представление: наложение соответствующих биологических ограничений на CNN приводит к поведению, похожему на то, что наблюдается в зрении приматов. В данном случае это устойчивость к атакам со стороны противника. Добавления VOneBlock было достаточно, чтобы заставить нижестоящие уровни сети изучить представления, которые более устойчивы к этим атакам. Традиционно, чтобы сделать CNN устойчивыми к состязательным атакам, вам необходимо обучать их с помощью этих «атакуемых» точек данных в вашем обучающем наборе, что вводит дополнительные накладные расходы во время обучения. Однако VOneNet может обобщать эти атаки без какого-либо специального дополнительного обучения и с самого начала более надежен — подобно людям!

Согласование нейронных представлений в ИТ-регионах

Другой подход к преодолению разрыва между зрительной корой приматов и CNN, который Dapello et al. (другая статья, аналогичные авторы) заключалась в том, чтобы выровнять нейронные представления слоев в регионе, а не вводить ограничения в начале. Другими словами, ограничения в этом случае заключаются в том, что нейронные единицы в слое CNN имеют активацию, аналогичную нейронам в аналогичных слоях зрительной коры приматов.

В исследовании умело используются эмпирические нейронные ИТ-записи приматов при воздействии определенных визуальных стимулов и делается попытка заставить CNN конвергировать к идентичным активациям нейронных единиц. Конечно, нейронные записи и активации нейронных блоков CNN нельзя сравнивать напрямую, поэтому они используют функцию потерь CKA. Выравнивание центрального ядра (ЦКА) является мерой линейного выравнивания подпространства и позволяет нам понять, насколько близко или далеко находятся подпространства, генерируемые данными нейронной записи и активациями нейронных блоков CNN. В статье CNN обучается с формулой множественных потерь, которая включает в себя стандартную кросс-энтропийную потерю для оптимизации возможностей распознавания изображений модели и потерю CKA для оптимизации нейронной прогнозируемости (способность CNN иметь активацию, аналогичную нейронным записям приматов). при тех же данных).

Использование CORnet-S позволяет нам изолировать ИТ-уровень и заставить его иметь аналогичные представления, найденные в мозгу приматов. Используя механизм Brain-Score, они смогли подтвердить, что после того, как ИТ-выравнивание произошло, сходство ИТ-нейронов также увеличилось с течением времени. Интересно, что они также заметили, что устойчивость к атакам коррелирует с увеличением сходства ИТ-нейронов.

Эти результаты не кажутся откровением: «чем больше CNN похожа на мозг, тем больше она похожа на мозг, т. е. лучше справляется с атаками со стороны противника». Тем не менее, это важное свидетельство, которое требует более глубокого изучения того, как сделать CNN более похожими на мозг, используя методы, аналогичные новым, представленным в этой статье и ее предшественниках. Нынешние CNN борются с такими состязательными наборами данных и работают совсем иначе, чем люди, сталкивающиеся с подобными проблемами. Модели репрезентативного выравнивания, по-видимому, улучшают выравнивание поведения человека, как представлено в этой статье.

Некоторые прощальные мысли

Лаборатория ДиКарло проделала значительную работу в области моделирования областей мозга в CNN с помощью различных средств, таких как нейрофизические ограничения, а также репрезентативное выравнивание. Результаты показали превосходную производительность в некоторых конкретных областях, а именно в состязательных атаках, где эти модели, вдохновленные нейросетями, превосходят сегодняшние ванильные современные CNN. В настоящее время модели необходимо обучать явно на наборах данных с помощью состязательных атак, чтобы получить надежность, что требует больших вычислительных ресурсов. Однако введение этих неврологических ограничений так или иначе приводит к устойчивости без дополнительного обучения — черта, которая больше соответствует человеческому зрительному поведению! Как подающий надежды ученый в области вычислительной когнитивистики, я рад видеть, как лаборатория ДиКарло придумывает новые способы ввести эти неврологические ограничения. Кроме того, я также взволнован перспективой всей предстоящей работы, которая исследует концепцию более похожих на мозг нейронных сетей.

Рекомендации

  1. Бумага для оценки мозга
  2. КОРНЕТ-С Бумага
  3. Воннет Бумага
  4. Документ о согласовании представительства ИТ
  5. Сайт Лаборатории ДиКарло
  6. Моя предыдущая статья о CNN и их первоначальном биологическом значении