В этой статье я расскажу о тонкостях логистической регрессии и основных моментах, которые помогут понять их концепции кристально ясными.

(Это моя первая статья, поэтому каждый может меня поправить или, если вы хотите, чтобы я добавил что-то еще.)

Предпосылка. Вы должны знать, что такое логистическая регрессия на самом деле и что это за основы.

Вот так!

Почему мы называем это логистикой?

Ну, название происходит от логистического распределения и почти похоже на нормальное распределение. Хотя они имеют похожие распределения, логистическое распределение отличается от нормального распределения. В логистической дистрибуции у нас более тяжелые хвосты.

Логистическая регрессия - это метод классификации, но мы все же называем ее «регрессией». Почему так?

На самом деле это очень частый вопрос. Теперь, если вы действительно знаете, что такое логистическая регрессия, вы согласитесь со мной в том, что логистическая регрессия, если рассматривать ее статистически, на самом деле представляет собой только линейную модель, которая предсказывает непрерывные значения между 0 и 1 и прислушиваясь к 0 и 1, одна вещь, которая поражает наш ум: « ВЕРОЯТНОСТЬ », следовательно, прогнозы логистической регрессии можно просто интерпретировать как вероятности.

И всякий раз, когда мы получаем значения вероятности больше 0,5, мы прогнозируем, что это будет один класс, и везде, где мы получаем значения вероятности меньше 0,5, мы прогнозируем, что это будет другой класс, поэтому он ведет себя полностью как метод классификации.

Слово регрессия используется только потому, что логистическая регрессия предсказывает непрерывные значения от 0 до 1.

Что такого особенного в поверхности принятия решений в логистической регрессии по сравнению с K-Nearest Neighbor (да, я знаю, вы называете это KNN!)

Гиперплоскость в логистической регрессии аналогична поверхности принятия решений в KNN. Но основное различие, которое мы видим между ними, заключается в том, что в случае KNN поверхность принятия решений может иметь любую форму, но в случае логистической регрессии наше первое предположение состоит в том, что гиперплоскость должна быть линейной. Короче говоря, «Логистическая регрессия имеет линейную поверхность принятия решений».

Зачем нам нужно рассчитывать расстояние каждой точки от выбранной гиперплоскости в случае логистической регрессии, когда мы можем классифицировать точку по знаку w_T * x_i?

(здесь w_T означает w транспонировать, где w - вектор, перпендикулярный выбранной гиперплоскости, а x_i - наша точка данных из обучающего набора)

Ответ на этот вопрос интересен.

На самом деле, просто принимая во внимание знак, мы можем определить, лежит ли точка на стороне + ve или стороне -ve (к какому ярлыку класса она принадлежит), что также является нашей конечной целью, но в машинном обучении одна вещь, которая имеет наибольшее значение, - это насколько мы уверены в нашем прогнозе.

Итак, причина, по которой мы также принимаем во внимание расстояние, заключается в том, что на основе расстояния мы можем дать оценку прогноза с высокой степенью уверенности.

Например, если сигмоид (w_T * x_i) = 0,8 (я надеюсь, вы, что такое сигмоид, если знаете основы логистической регрессии), то мы можем сказать, что точка принадлежит классу + ve с достоверностью 80%.

Смогу ли я иметь дело только с двоичной классификацией с использованием логистической регрессии?

Логистическая регрессия, которую я обсуждаю в этой статье, касается только двоичной классификации, но в будущих статьях я буду обсуждать тип логистической регрессии, называемый «Soft-max Classifier», который является частью глубокого обучения, основанного на логистической регрессии для Мультиклассовая классификация.

Вы можете найти здесь объяснение Soft-Max Classifier



Тем не менее, мы всегда можем выбрать подход one vs rest для работы с многоклассовой классификацией, но он не даст нам таких хороших результатов, как классификатор soft-max.

Почему мы применяем сигмоидальную функцию к расстоянию со знаком, рассчитанному с использованием w_T * x_i * y_i?

Есть три основных преимущества сигмовидной функции:

1.) Сигмовидную функцию легко различить (следовательно, она будет очень полезна при оптимизации). Поскольку сигмовидная функция дифференцируема, сходимость также возможна при решении задачи оптимизации логистической регрессии.

2.) Сигмоидальная функция дает вероятностное понимание классификации (она предсказывает непрерывные значения от 0 до 1), и всем нравится вероятностное понимание классификации.

3.) (w_T * x_i * y_i) → он дает нам расстояние (расстояние со знаком), и, поскольку мы знаем, что расстояние может увеличиваться до любой меры, поэтому оно может также дать нам большие значения, а в случае выбросов эти большие значения будут сильно влияет на нашу модель, поэтому проблема, с которой мы сталкиваемся здесь, заключается в том, что наша модель очень чувствительна к выбросам, но как только мы применим сигмовидную функцию к расстояниям, БУМ! Мы получаем каждое значение от 0 до 1, что предохраняет нашу модель от сильного влияния выбросов. Следовательно, сигмовидная функция помогает уменьшить влияние выбросов.

Но какую сигмовидную функцию вы здесь используете ????

Что ж, есть много сигмовидных функций, но одна, которая лучше всего подходит для логистической регрессии, - это -

Итак, теперь вместо того, чтобы смотреть на значение w_T * x_i * y_i, мы будем вычислять и видеть значение σ ( w_T * x_i * y_i).

Резюме для входов и выходов логистической регрессии, часть 1

В методе логистической регрессии мы предположили, что если значение продукта y_i * w_T * x_i положительно, то точка классифицируется правильно. В противном случае он не будет правильно классифицирован.

Но здесь, наряду с проверкой того, правильно ли классифицированы точки данных, мы также должны убедиться, насколько хорошо наша модель предсказывает метку для этих точек данных.

Следовательно, нам нужна функция для оценки меток. Для этого мы учитываем сигмовидную функцию. Возможный диапазон значений для результата сигмовидной функции составляет [0,1] (также можно увидеть на графике). Следовательно, мы используем порог 0,5 (под порогом я подразумеваю, какое значение будет определять, относятся ли точки к положительному или отрицательному классу).

Если сигмоид (y_q * W ^ T * Xq)> 0,5, то мы прогнозируем метку как 1. В противном случае мы прогнозируем метку как 0 (это может быть и наоборот, не беспокойтесь). Кроме того, мы выбрали сигмоид, поскольку он имеет хорошую вероятностную интерпретацию, а также легко дифференцируется (как обсуждалось выше).
Если сигмоид (y_q * W_T * Xq) = 0,7, то мы можем сказать y_q = 1 с низкая достоверность, поскольку 0,7 приближается к порогу 0,5. Принимая во внимание, что если сигмоид (y_q * W_T * Xq) = 1, мы можем сказать y_q = 1 с высокой степенью уверенности, поскольку 1 далеко от порога 0,5 и находится на положительной стороне.
Если сигмоид (y_q * W_T * Xq) = 0,4, тогда мы можем сказать y_q = 0 с низкой достоверностью, поскольку 0,4 ближе к порогу 0,5.
Тогда как если sigmoid (y_q * W_T * Xq) = 0, мы можем сказать y_q = 0 с высокой степенью достоверности как 0 далеко от порога 0,5 и имеет отрицательную сторону.
На основании этих двух причин мы можем сказать, что
a) По мере увеличения значения сигмоида (y_q * W_T * Xq) увеличивается значение P (y_q = 1 | x_q) увеличивается, а P (y_q = 0 | x_q) уменьшается.
b) По мере уменьшения значения сигмоида (y_q * W_T * Xq) значение P (y_q = 0 | x_q) увеличивается, а P (y_q = 1 | x_q) уменьшается.

Вот и все. Увидимся, милые люди, в следующей статье с большим содержанием.

📝 Прочтите этот рассказ позже в Журнале.

👩‍💻 Просыпайтесь каждое воскресное утро и слышите самые интересные истории недели в области технологий, ожидающие в вашем почтовом ящике. Прочтите информационный бюллетень« Примечательные в технологиях ».