Сверточные нейронные сети (CNN) — Объяснение архитектуры

Введение

Сверточная нейронная сеть (CNN) представляет собой сетевую архитектуру для глубокого обучения, которая учится непосредственно на данных. CNN особенно полезны для поиска шаблонов в изображениях для распознавания объектов. Они также могут быть весьма эффективными для классификации данных, не связанных с изображениями, таких как аудио, временные ряды и данные сигналов.

Детекторы ядра или фильтра или функции

В сверточной нейронной сети ядро представляет собой не что иное, как фильтр, который используется для извлечения признаков из изображений.

Формула = [i-k]+1

i -> Размер ввода, K-> Размер ядра

Страйд

Шаг — это параметр фильтра нейронной сети, который изменяет количество движений по изображению или видео. у нас был шаг 1, поэтому он будет выполняться один за другим. Если мы укажем шаг 2, то он будет иметь значение, пропуская следующие 2 пикселя.

Формула =[i-k/s]+1

i -> Размер ввода, K-> Размер ядра, S-> Шаг

Прокладка

Заполнение — это термин, относящийся к сверточным нейронным сетям, поскольку он относится к количеству пикселей, добавляемых к изображению, когда оно обрабатывается ядром CNN. Например, если заполнение в CNN установлено равным нулю, то каждое добавленное значение пикселя будет иметь нулевое значение. Когда мы используем фильтр или ядро для сканирования изображения, размер изображения становится меньше. Мы должны избегать этого, потому что мы хотим сохранить исходный размер изображения, чтобы извлечь некоторые низкоуровневые функции. Поэтому мы добавим несколько дополнительных пикселей за пределы изображения. Пожалуйста, используйте эту ссылку, чтобы узнать больше об отступах.

Формула =[i-k+2p/s]+1

i -> Размер ввода, K-> Размер ядра, S-> Шаг, p-> Заполнение

Объединение

Объединение в сверточные нейронные сети — это метод обобщения признаков, извлеченных с помощью сверточных фильтров, и помогающий сети распознавать признаки независимо от их расположения на изображении.

Сгладить

Сведение используется для преобразования всех результирующих двумерных массивов из объединенных карт объектов в один длинный непрерывный линейный вектор. Сглаженная матрица подается в качестве входных данных для полносвязного слоя для классификации изображения.

Слои, используемые для построения CNN

Сверточные нейронные сети отличаются от других нейронных сетей своей превосходной производительностью с входными сигналами изображения, речи или аудио. Они имеют три основных типа слоев, а именно:

Сверточный слой
Объединенный слой
Полносвязный (FC) уровень

Сверточный слой

Этот слой является первым слоем, который используется для извлечения различных функций из входных изображений. На этом уровне мы используем фильтр или метод ядра для извлечения признаков из входного изображения.

Объединяющий слой

Основная цель этого слоя — уменьшить размер свернутой карты объектов для снижения вычислительных затрат. Это достигается за счет уменьшения связей между слоями и независимой работы с каждой картой объектов. В зависимости от используемого метода существует несколько типов операций объединения. У нас есть максимальное объединение и среднее объединение.

Полностью подключенный слой

Слой Fully Connected (FC) состоит из весов и смещений вместе с нейронами и используется для соединения нейронов между двумя разными слоями. Эти слои обычно размещаются перед выходным слоем и образуют несколько последних слоев архитектуры CNN.

Выбывать

Другой типичной характеристикой CNN является слой Dropout. Слой Dropout — это маска, которая сводит на нет вклад некоторых нейронов в следующий слой и оставляет без изменений все остальные.

Функция активации

Функция активации решает, должен ли нейрон быть активирован или нет. Это означает, что он решит, важен ли вход нейрона в сеть в процессе прогнозирования. Существует несколько часто используемых функций активации, таких как ReLU, Softmax, tanH и сигмовидные функции. Каждая из этих функций имеет определенное применение.

Sigmoid — для бинарной классификации в модели CNN.

tanH. Функция tanh очень похожа на сигмовидную функцию. Единственное отличие состоит в том, что он симметричен относительно начала координат. Диапазон значений в данном случае от -1 до 1.

Softmax — используется в полиномиальной логистической регрессии и часто используется в качестве последней функции активации нейронной сети для нормализации выходных данных сети к распределению вероятностей по прогнозируемым выходным классам.

RelU. Основное преимущество использования функции ReLU по сравнению с другими функциями активации заключается в том, что она не активирует все нейроны одновременно.

Проверьте мои другие блоги…

Нейронные сети и глубокое обучение
Введениеmedium.com

Удаление выбросов с помощью Z-Score, IQR
При подготовке модели мы часто сталкиваемся с ситуациями, когда в наборе данных присутствуют выбросы. Эти выбросы…medium.com

Заполнение нулями в сверточных нейронных сетях
Введениеmedium.com

Классификация изображений и прогнозирование с использованием трансферного обучения
В этом блоге мы реализуем классификацию изображений с использованием глубокой сверточной сети VGG-16, используемой в качестве среды передачи… .com

Есть сомнения? Нужна помощь? Свяжитесь со мной!

LinkedIn: https://www.linkedin.com/in/dharmaraj-d-1b707898

Github:https://github.com/DharmarajPi