Введение в терминологию глубокого обучения

а. Рецидивирующий нейрон

Это одна из лучших терминологий глубокого обучения. По сути, этот вывод отправляется обратно нейрону для t временных меток. Посмотрев на диаграмму, мы можем сказать, что выход снова стал входом t раз. Кроме того, мы должны соединить вместе разные, которые будут выглядеть как развернутый нейрон. Хотя важно то, что он дает нам более обобщенный результат.

б. RNN (рекуррентная нейронная сеть)

Мы используем рекуррентную нейронную сеть, особенно для последовательных данных. Как и в этом случае, мы используем предыдущий вывод, чтобы предсказать следующий. Кроме того, в этом случае петли имеют внутри себя сеть. В скрытом нейроне петли могут хранить информацию. Поскольку он сохраняет предыдущие слова, чтобы предсказать результат.

Опять же, мы должны отправить вывод скрытого слоя для t временных меток. Более того, вы можете видеть, что развернутый нейрон выглядит так. Как только нейрон завершает все отметки времени, он переходит к следующему слою. В результате можно сказать, что вывод является более обобщенным. Хотя ранее полученная информация сохраняется долгое время.

Более того, чтобы обновить вес развернутой сети, мы должны снова распространить ошибку. Следовательно, это называется обратным распространением во времени (BPTT).

c. Проблема исчезающего градиента

Это одна из лучших терминологий глубокого обучения. Эта проблема возникает там, где функция активации очень мала. Во время обратного распространения ошибки мы должны умножить веса на низкие градиенты. Хотя они маленькие и исчезают, если заходят дальше в сеть. По этой причине нейронная сеть забывает о дальнодействующей зависимости. Также это становится проблемой нейронных сетей. В результате сеть очень важно помнить о зависимости.

Мы используем функцию активации для решения таких задач, как ReLu, которые не имеют небольших градиентов.

d. Проблема взрывающегося градиента

Можно сказать, что это противоположность проблемы исчезающего градиента. Другое дело, так как функция активации слишком велика. Кроме того, это делает вес конкретного узла очень большим. Хотя, мы можем решить эту проблему, обрезав градиент. Чтобы оно не превышало определенного значения.

е. Объединение

Это одна из лучших терминологий глубокого обучения. Мы можем ввести слои объединения между слоями свертки. В основном, используйте это, чтобы уменьшить количество параметров. Хотя, не допускайте переоборудования. Тем не менее, размер наиболее распространенного типа объединения уровня фильтрации (2,2) с использованием операции MAX. Кроме того, мы можем сказать, что он будет делать, это займет максимум каждой матрицы 4 * 4 исходного изображения.

Мы также можем использовать другие приложения пула, такие как средний пул и т. Д.

f. Обивка

В этом процессе мы должны добавить дополнительный слой нулей по изображениям. Итак, выходное изображение имеет тот же размер, что и входное. Следовательно, это называется заполнением. Если пиксели изображения действительны или действительны, мы можем сказать, что это действительный отступ.

грамм. Увеличение данных

Это относится к добавлению новых данных, которые происходят из заданных данных, которые могут оказаться полезными для прогнозирования.

Например:

Допустим, у нас есть цифра «9». Мы также можем изменить его узнаваемость. Но если он вращается или наклоняется. Таким образом, поворот помогает повысить точность нашей модели. Хотя мы повышаем качество данных за счет ротации. Следовательно, призвал к увеличению данных.

час Софтмакс

Мы используем функцию активации softmax в выходном слое для задач классификации. Это похоже на сигмовидную функцию. Кроме того, разница в том, что выходные данные нормализованы, в сумме до 1.

Это похоже на сигмовидную функцию, с той лишь разницей, что выходы нормализованы, чтобы в сумме получить 1. Сигмоидальная функция будет работать, если у нас есть двоичный выход. Но у нас также есть проблема мультиклассовой классификации. В этом процессе softmax упрощает присвоение значений каждому классу. Кроме того, это можно интерпретировать как вероятности.

Это очень легко увидеть таким образом. Предположим, вы пытаетесь определить число 6, которое также может немного походить на 8. Функция будет назначать значения каждому числу, как показано ниже. Мы легко можем видеть, что наивысшая вероятность присваивается 6, следующая по величине - 8 и так далее ...

я. Нейронная сеть

Нейронная сеть составляет основу глубокого обучения. Его цель - найти приближение неизвестной функции. Это комбинация взаимосвязанных нейронов. У этих нейронов есть веса. Кроме того, необходимо обновить смещение во время обучения сети в зависимости от ошибки. Функция активации переводит нелинейное преобразование в линейную комбинацию. Таким образом, генерируется вывод. Комбинации активированных нейронов дают результат.

j. Входной слой / Выходной слой / Скрытый слой

Это одна из лучших терминологий глубокого обучения. Входной слой - это тот, который получает входные данные. Кроме того, это первый уровень сети. Выходной слой - это последний уровень сети. Эти слои являются скрытыми слоями сети. Мы используем эти скрытые слои для выполнения задач с входящими данными. Следовательно, передайте сгенерированный вывод на следующий уровень. Хотя оба слоя видны, промежуточные слои скрыты.

k. MLP (многослойный персептрон)

Мы не можем выполнять очень сложные задачи с помощью одного нейрона. Поэтому мы используем стеки нейронов для генерации желаемых результатов. В простейшей сети у нас был бы входной слой, скрытый слой и выходной слой. Как и в этом случае, каждый слой имеет несколько нейронов. Кроме того, в каждом слое все нейроны связаны со всеми нейронами следующего слоя. Эти сети представляют собой полностью связанные сети.

л. Нейрон

Можно сказать, что мы используем нейрон для формирования основных элементов мозга. Также помогает сформировать базовую структуру нейронной сети. По мере поступления новой информации. Начинаем формировать вывод.

Точно так же поступаем и с нейронной сетью. Как только нейрон получит ввод, мы должны запустить этот процесс. Далее после обработки формируется вывод. Кроме того, мы должны отправлять нейроны, которые помогают в дальнейшей обработке. Либо мы можем рассматривать это как окончательный результат.

м. Вес

Как только входные данные попадают в нейрон, мы должны умножить их на вес.

Например:

Если в случае, когда нейрон имеет два входа, мы должны назначить каждому входу соответствующий вес. Далее мы должны случайным образом инициализировать веса. Более того, в процессе обучения модели эти веса обновляются. Хотя после тренировки приходиться придавать входу больший вес.

Предположим, что вход - это a, а затем свяжем вес с W1. Затем после прохождения через узел вход становится * W1

п. Предвзятость

Мы должны добавить еще один линейный компонент для ввода в дополнение к весу, это смещение. На входе мы должны добавить умножение веса. По сути, мы должны добавить смещение, чтобы изменить диапазон ввода умноженного веса. Как только добавлено смещение, результат будет выглядеть как смещение * W1 +. Следовательно, это линейный компонент входного преобразования.

о. Функция активации

Как только мы применяем линейный компонент к входу, к нему применяется нелинейная функция. Поскольку это делается путем применения функции активации к линейной комбинации. Следовательно, это преобразует входные сигналы в выходные сигналы.
Результат после применения функции активации будет выглядеть примерно так: f (a * W1 + b), где f () - функция активации.
На диаграмме ниже у нас есть «n» входов, заданных как от X1 до Xn, и соответствующие веса от Wk1 до Wkn. У нас есть смещение, обозначенное как bk. Во-первых, мы должны умножить веса на соответствующие входные данные. Затем сложите их вместе со смещением. Предположим, что это u.
u = ∑w * x + b
Таким образом, функция активации должна применяться к u, т.е. f (u), и мы получаем окончательный вывод от нейрона как yk = f (u )

п. Градиентный спуск

Мы используем это как алгоритм оптимизации для минимизации затрат.

Математически, чтобы найти локальный минимум функции, нужно делать шаги, пропорциональные отрицательному значению градиента функции.

q. Скорость обучения

Можно сказать, что это степень минимизации функции стоимости на каждой итерации. Также нужно быть осторожным при выборе скорости обучения. Поскольку он не должен быть очень большим, оптимальное решение будет упущено. Кроме того, не должно быть очень низким, чтобы конвергенция сети длилась вечно.

р. Обратное распространение

Всякий раз, когда мы хотим определить нейронную сеть, мы назначаем нашим узлам случайные веса и значения смещения. Также, как только мы получили результат для одной итерации. Таким образом, мы можем вычислить погрешность сети.

При обратном распространении сеть движется в обратном направлении, ошибка вместе с градиентом течет обратно из внешнего слоя через скрытые слои, и выполняется обновление весов.

с. Партии

В случае обучения нейронной сети, мы делим ввод на несколько блоков равного размера случайным образом. Вместо того, чтобы отправлять весь ввод за один раз. Кроме того, обученные пакеты данных делают модель более обобщенной.

т. Эпохи

Мы можем определить это как одну итерацию обучения. Затем мы определяем срок с пакетами при пересылке и обратном распространении. Это означает, что 1 эпоха - это один прямой и обратный проход всех входных данных.

Итак, это все о терминах глубокого обучения. Надеюсь, вам понравится наше объяснение.

Заключение

В результате мы увидели терминологию глубокого обучения. Так как это поможет понять сложную нейронную сеть и терминологию глубокого обучения. У нас есть изображения для терминологии глубокого обучения, которые помогут вам лучше понять это. Кроме того, если у вас возникнут какие-либо вопросы относительно условий глубокого обучения, не стесняйтесь спрашивать в разделе комментариев.