Логистическая регрессия — Что, когда, почему и как

Если вы новичок в машинном обучении и хотите освоить логистическую регрессию, от интуиции до математики, стоящей за ней, вы в ударе!

Внимание!!

Прежде чем перейти к логистической регрессии, позвольте мне кратко объяснить разницу между алгоритмами машинного обучения с учителем и без учителя.

Контролируемый. Алгоритмы контролируемого машинного обучения — это алгоритмы, в которых у нас есть метки для каждой записи или точки данных. С точки зрения непрофессионала, у нас уже есть фактическое значение, называемое основной истиной, нашей целевой переменной. Их можно использовать как для задач регрессии, так и для задач классификации. Примерами контролируемых алгоритмов машинного обучения являются линейная регрессия и логистическая регрессия.

Неконтролируемый. Алгоритмы неконтролируемого машинного обучения — это алгоритмы, в которых у нас нет меток для какой-либо записи или точки данных. Пример кластеризации.

Существует еще один тип алгоритма машинного обучения, который называется обучение с подкреплением. Но мы можем оставить это в стороне на данный момент.

Введение — что и когда

В этом разделе статьи в основном рассматривается ЧТО такое логистическая регрессия и КОГДА она используется.

Логистическая регрессия — это частный случай обобщенной линейной модели, той же группы, к которой принадлежит линейная регрессия. В пространстве AI-ML логистическая регрессия — это контролируемый алгоритм машинного обучения, который решает проблемы классификации и является основой для многих моделей глубокого обучения и искусственного интеллекта, таких как искусственные нейронные сети и CNN.

В отличие от модели линейной регрессии, которая используется в случае непрерывной целевой переменной, логистическая регрессия используется, когда целевая переменная носит категориальный характер. Кроме того, выход модели логистической регрессии — это вероятность того, что наши входные данные принадлежат одному из двух классов, которая определяется на основе порога вероятности.

Теперь основной вопрос, который возникает, заключается в том, используется ли он для многоклассовой классификации или бинарной классификации. Таким образом, логистическая регрессия в основном имеет дело с проблемами бинарной классификации, когда целевая переменная имеет только 2 класса, таких как да/нет, правда/ложь, злокачественное/доброкачественное и т. д. Хотя в случае многоклассовой классификации проблемы, проблема классификации преобразуется в несколько задач бинарной классификации с использованием one vs rest, и предсказанный класс является тем, который имеет максимальную вероятность.

Почему логистическая регрессия, а не линейная регрессия?

В этом разделе статьи рассматривается вопрос о том, ПОЧЕМУ мы используем логистическую, а не линейную регрессию. За этим стоит множество аргументов, одним из которых является фундаментальное правило, утверждающее, что логистическая регрессия используется, когда целевая переменная является двоичной.

Другая причина заключается в том, что линейная регрессия чувствительна к выбросам. Это означает, что если фактические точки данных имеют выброс, линия наилучшего соответствия смещается, чтобы соответствовать выбросу. Давайте лучше разберемся в этом.

Предположим, наша задача состоит в том, чтобы предсказать, является ли рак злокачественным или нет. Здесь наша входная/независимая переменная по оси X представляет собой размер опухоли, показанный на изображении выше, а целевая/зависимая переменная по оси Y представляет собой двоичную категориальную переменную, имеющую два класса 1 и 0. соответствующий каждой метке, то есть «Да» или «Нет» соответственно. Кроме того, предположим, что мы взяли вероятность 0,5 в качестве порога. Любой человек с вероятностью > 0,5 попадет в класс 1, т. е. рак является злокачественным, а человек с вероятностью ‹ 0,5 попадет в класс 0, т. е. рак не является злокачественным. Это имеет два случая:

Случай 1 (изображение 1): На изображении 1 при пороге 0,5 вдоль линии наилучшего соответствия L1 имеется опухоль соответствующего размера X1'. У человека с размером опухоли > X1' прогнозируется наличие злокачественного рака, тогда как у человека с размером опухоли ‹ X1' прогнозируется отсутствие злокачественного рака, что в данном конкретном случае дает правильный прогноз.

Случай 2 (изображение 2): на изображении 2 мы вводим несколько выбросов, которые сдвигают линию наилучшего соответствия с LI на L2, изменяя соответствующий размер опухоли с X1' на X2' при пороговом значении 0,5. . В этом случае прогнозируется, что у человека с размером опухоли > X2' злокачественный рак, тогда как у человека с размером опухоли ‹ X2' прогнозируется отсутствие злокачественного рака. Это не только приведет к некоторым неверным прогнозам, но также покажет, что на линейную регрессию влияют выбросы, поэтому ее нельзя использовать.

Согласно приведенному выше изображению, еще одна причина, которая вытекает из этого, заключается в том, что в случае линейной регрессии прогноз по линии наилучшего соответствия может быть ‹ 0 или › 1 (что мы можем видеть с линиями L1 и L2, идущими от -∞ до + ∞), что противоречит логике логистической регрессии, которая дает вероятность в качестве выходных данных, таким образом, имея диапазон от (0,1).

Как?

Этот раздел статьи, который я называю сердцевиной логистической регрессии, посвящен пониманию интуиции, лежащей в основе логистической регрессии, функции и кривой, а также тому, КАК мы получаем уравнение логистической регрессии и алгоритм используется для получения наилучших оценок параметров.

Напоминание!! Выходные данные линейной регрессии, полученные из линии наилучшего соответствия, имеют диапазон (-∞, +∞). Начнем с уравнения линейной регрессии для линии наилучшего соответствия.

В логистической регрессии вместо «y» мы предсказываем вероятность, которая определяется «P». Итак, заменим в формуле «y» на «P». Но здесь есть проблема. Значение «P» превысит 1 или опустится ниже 0, и мы знаем, что диапазон вероятности составляет от (0,1). Чтобы решить эту проблему, мы берем «шансы» P:

Диапазон отношения шансов (P/1-P) равен (0,+∞). Таким образом, шансы никогда не опустятся ниже нуля и могут достигать бесконечности. Это ограничивает диапазон нашего вывода. Кроме того, значения отношения шансов часто асимметричны. Чтобы решить эти проблемы, мы берем логарифм шансов, который имеет диапазон от (-∞, +∞).

Фу!! Много математики, да? Нет, это только начало, дальше будет интереснее.

Теперь, взяв журнал шансов, мы возьмем экспоненту с обеих сторон и найдем значение «P».

Мы, наконец, пришли к нашей логистической функции, также называемой сигмовидной функцией. Суть этой математики в том, что сигмовидная функция сжимает прямую линию (линейная регрессия) до S-образной кривой (логистическая регрессия). Обратитесь к изображению ниже:

Теперь, поскольку мы хорошо понимаем, что такое логистическая регрессия и как выводится сигмовидная функция, давайте углубимся и посмотрим, что такое оценка максимального правдоподобия и как она получается.

Оценка максимального правдоподобия

А пока давайте реструктурируем нашу логистическую функцию. Предположим, что 𝜽^T*X (умножение матриц) равно наилучшему линейному уравнению для линейной регрессии. Тогда наша логистическая функция выглядит следующим образом:

Оценка максимального правдоподобия — это метод нахождения значений параметров, которые соответствуют определенному распределению, так что функция правдоподобия максимальна. Другими словами, после подстановки значений параметров в модель (в нашем случае это модель логистической регрессии) наш результат близок к фактически наблюдаемым значениям.

Что касается нашего варианта использования, когда мы предсказываем, есть ли у человека злокачественный рак или нет, оценка максимальной вероятности дает нам такие параметры, что включение этих значений в нашу модель логистической регрессии дает вероятность, близкую к 1 для людей, имеющих злокачественный рак, и близкую к 0 для людей, не имеющих злокачественного рака.

Во-первых, давайте определим распределение, которое соответствует нашим данным. Поскольку наша целевая переменная является бинарной переменной, имеющей только два значения: успех как 1 и неудача как 0 с вероятностью успеха как P, т.е. 𝜎(𝜽^T*X), и неудачи как 1-P, т.е. *X)), это следует распределению Бернулли, которое является частным случаем биномиального распределения.

Ниже приведен PDF для биномиального распределения, которое определяет вероятность получения «x» успехов в «n» испытаниях.

В случае распределения Бернулли у нас есть только два исхода, т. е. либо класс 1 с вероятностью P, т. е. 𝜎(𝜽^T*X), либо класс 0 с вероятностью 1-P, т. е. (1-𝜎(𝜽^T*X)) в испытание. PMF для класса «y» с учетом входных данных «X» для распределения Бернулли:

Примечание. Мы заменяем P (вероятность) на сигмовидную функцию. Кроме того, если это класс 1, то y=1, иначе y=0.

Приведенное выше уравнение можно также записать как;

Ладно, пусть это немного впитается.

Теперь давайте определим функцию правдоподобия. Для наблюдений

Возьмите бревно с обеих сторон, чтобы получить выпуклую функцию. Это дает нам логарифмическую функцию правдоподобия.

И последнее, но не менее важное. В следующем разделе мы узнаем, как выбирать параметры 𝜽.

Выбор параметров 𝜽

Во-первых, давайте упомянем нашу функцию логарифмического правдоподобия.

Есть два способа, которыми мы можем получить параметры.

Во-первых, путем максимизации вышеуказанной целевой функции, которая является нашей функцией логарифмического правдоподобия, с помощью оптимизации градиентного восхождения.
Во-вторых, путем минимизации функции логарифмических потерь (отрицательной функции логарифмического правдоподобия) с помощью оптимизации градиентного спуска.

Оптимизация градиентного подъема

Во-первых, приходите первым. Давайте обсудим оптимизацию градиентного восхождения, где мы выбрали значения 𝜽, которые максимизируют функцию логарифмического правдоподобия. Позвольте мне сначала упомянуть производную, а затем мы перейдем к ее выводу.

Теперь поработаем над выводом.

В этом алгоритме, чтобы получить значения 𝜽, которые максимизируют функцию логарифмического правдоподобия, мы берем частную производную функции по каждому параметру.

В исчислении производная суммы равна сумме производной. Выполним вывод для одного обучающего примера. Предположим, что наши данные имеют j входов. Производная градиента для одной точки данных (x, y):

Вывод вышеуказанной функции дает нам;

В приведенном выше уравнении указывается производная функции градиента или логарифмического правдоподобия одного обучающего примера. После удаления общего члена мы получаем следующее уравнение;

Теперь термин за скобками – это вывод сигмовидной функции по отношению к .r.t. входы. Это можно записать как;

Первый срок на R.H.S. является производной сигмовидной функции. равняется;

Второй срок на R.H.S. приравнивается к Х.

Если вы продолжите вычисления, вы получите приведенную ниже производную, где xj — коэффициент j-го параметра.

Приведенное выше уравнение за скобками является частным выводом нашей сигмовидной функции, то есть 𝜎(𝜽^T*X).

После сокращения членов в последнем уравнении мы получаем то, что называется градиентом логарифмической функции правдоподобия.

После того, как мы получим окончательную производную, мы выполним градиентное восхождение, чтобы выбрать те значения 𝜽, которые максимизируют функцию логарифмического правдоподобия.

Градиентный подъем осуществляется путем одновременного обновления всех 𝜽 параметров, уравнение для которых приведено ниже;

Давайте разберемся в приведенном выше уравнении. В приведенном выше уравнении 𝜽+ — это новый 𝜽, 𝜽- — это старый 𝜽, 𝛼 — это скорость обучения, то есть размер шагов или скорость, с которой старый 𝜽 должен обновляться, чтобы получить новый 𝜽 и последнюю часть является производной функции логарифмического правдоподобия, которую мы только что получили.

Итак, в приведенном выше уравнении градиент добавляется к старому 𝜽, чтобы получить новый 𝜽. Этот полный процесс называется Gradient Ascent Optimization.

Оптимизация градиентного спуска

Иногда в машинном обучении лучше минимизировать функцию потерь с помощью градиентного спуска, чем максимизировать целевую функцию с помощью градиентного подъема (упомянутого в предыдущем разделе). Для этого мы берем отрицательное значение приведенной выше функции логарифмического правдоподобия, чтобы получить нашу функцию стоимости.

Примечание. Максимум функции журнала совпадает с минимумом отрицательного значения той же функции журнала, т. е. max[log(x)] = min[-log(x)].

Отрицательное значение функции логарифмического правдоподобия дает нам;

Вышеупомянутая функция также называется функцией стоимости или функцией потерь журнала, и эту функцию следует минимизировать. Вышеупомянутая функция затрат может быть упрощена, как показано ниже;

Теперь давайте разберемся с графиком для обоих случаев, где Y=0 и Y=1.

Левое изображение соответствует случаю, когда Y=1, а правое изображение соответствует случаю, когда Y=0. Если мы объединим два приведенных выше изображения, мы получим выпуклую функцию, в которой мы можем применить градиентный спуск, чтобы получить значения 𝜽, которые минимизируют функцию стоимости.

График выпуклой функции приведен ниже;

На приведенном выше изображении показано, как обновляются начальные веса, пока мы не достигнем точки минимума, в которой минимизируется функция стоимости. Давайте двигаться шаг за шагом, чтобы понять, как это работает.

Ниже приведено уравнение для алгоритма градиентного спуска.

Уравнение градиентного спуска выглядит знакомым, верно? Действительно. Это то же самое уравнение, которое мы использовали для градиентного восхождения, только знак плюс изменился на минус. Это потому, что мы взяли отрицательное значение логарифмической функции правдоподобия, чтобы получить нашу функцию стоимости.

Первоначально мы случайным образом выбираем параметры, которые определяют нашу отправную точку (начальные веса). Затем, чтобы определить направление движения, мы вычисляем наклон, вычисляя производную, также называемую градиентом (выделено на изображении), функции стоимости относительно. параметры. В правой части наклон кривой положительный, но, поскольку уравнение имеет знак минус, мы движемся в противоположном направлении, то есть движемся вниз по наклону. Размер шагов, которые мы предпринимаем для достижения минимальной точки, называется скоростью обучения, определяемой 𝛼. Так происходит обновление до тех пор, пока мы не достигнем минимума кривой, где функция стоимости минимизируется.

Примечание: 𝛼 т. е. скорость обучения не фиксирована. Чем ниже скорость обучения, тем больше времени потребуется для достижения минимума. Если значение скорости обучения слишком велико, минимумы могут быть пропущены.