Когда я изучал статистику и науку о данных, термин «softmax» часто вызывал вопросы и любопытство.

Чтобы понять его название, нам также нужно изучить функцию «hardmax» (arg max). И hardmax, и softmax — это функции активации, используемые в различных приложениях, таких как нейронные сети. Функция hardmax — это функция, которая принимает вектор действительных чисел и возвращает вектор, в котором все элементы равны нулю, кроме одного с наибольшим значением, которое равно единице. С другой стороны, функция softmax преобразует вектор действительных чисел в распределение вероятностей, где каждый элемент представляет вероятность того, что соответствующий входной элемент является наиболее вероятным.

Стоит отметить, что термин «мягкий», используемый в softmax, может вводить в заблуждение. Это не подразумевает мягкую или сглаженную версию функции максимума, а скорее гладкое приближение к функции arg max. Функция softmax обеспечивает непрерывную и дифференцируемую альтернативу выбору максимального значения.

Почему экспоненциальная функция используется в функции softmax?

Показательная функция, обозначаемая как exp(z), представляет собой математическую функцию, которая возводит константу e (приблизительно 2,71828) в степень заданного числа z. Экспоненциальная функция определена для всех вещественных чисел, включая как положительные, так и отрицательные значения.

При рассмотрении экспоненты отрицательного числа, такого как exp(-z), где z — положительное действительное число, действительно всегда получается в положительном значении. Это свойство сохраняется из-за характера экспоненциальной функции.

Экспоненциальная функция имеет несколько примечательных свойств:

  1. Всегда положительно: для любого действительного числа z exp(z) больше 0. Это означает, что экспонента любое отрицательное число приведет к положительному значению.
  2. Он приближается к нулю, когда z приближается к отрицательной бесконечности: когда z становится более отрицательным и приближается к отрицательной бесконечности, exp(z) приближается к нулю, но никогда не достигает это.
  3. Он быстро увеличивается, когда z становится положительным: Когда z становится более положительным, exp(z) быстро растет, приближаясь к положительной бесконечности, когда z приближается к положительной бесконечности.

Эти свойства гарантируют, что экспоненциальная функциявсегдавозвращаетположительные значения для отрицательных входных данных, а для положительных входных данных экспоненциально растет.

Кто изобрел функцию softmax?

В настоящее время функция softmax широко используется в глубоком обучении и, в частности, в классификации с помощью нейронных сетей. Однако происхождение этого термина и функции почти нигде не упоминается.

Функция softmax названа в честь термина, введенного в официальном документе 1989 года Джона С. Бридла под названием Обучение алгоритмов распознавания стохастических моделей как сетей может привести к максимальной взаимной информационной оценке параметров. Функция softmax имеет сходство с распределением Больцмана (или Гиббса), сформулированным Людвигом Больцманом в 1868 году, демонстрируя, что эта концепция не совсем нова.

Таким образом, функция softmax имеет практическое применение в классификации, прогнозировании, принятии решений, вероятностном моделировании, нейронных сетях и оптимизации моделей. Его использование способствует прогрессу в технологиях, анализу данных и принятию обоснованных решений, что в конечном итоге влияет на нашу жизнь за счет повышения точности, эффективности и понимания в широком диапазоне приложений.

Я благодарен моему другу Ариану Прабово, который предоставил мне подробное объяснение этой концепции.