R-КВАДРАТ И ОТРЕГУЛИРОВАННЫЙ R-КВАДРАТ

Введение

R-квадрат и скорректированный R-квадрат — ключевые методы проверки точности регрессионной задачи. Мы подробно разберем каждый из них в последующих разделах.

Существуют различные методы проверки точности различных задач. В случае проблем с классификацией мы используем матрицу путаницы, F1-Score, Precision, Recall и т. д.

R-КВАДРАТ

Формула для R-квадрата:

Где,

SSres = сумма остатка

SStot = сумма среднего итога

НАИЛУЧШАЯ ФИТ ЛИНИЯ

Чтобы понять, что такое SSres, давайте возьмем график, чтобы понять, что

Синие точки на графике — это фактические точки. Двусторонняя стрелка между каждой синей точкой и перпендикулярной линией (линия наилучшего соответствия) показывает разницу между прогнозируемой и фактической точкой. Это ошибка/остаток. Суммирование всех этих различий между фактической и прогнозируемой точкой — это то, что мы называем SSres.

СРЕДНЯЯ ПОДГОНКА

На приведенном выше рисунке видно, что вместо поиска линии наилучшего соответствия берется средняя выходная линия. Синие точки на графике — это фактические точки.

Двусторонняя стрелка между каждой синей точкой и средней выходной линией показывает разницу между прогнозируемой и фактической точкой. Суммирование всех этих различий между фактической и прогнозируемой точкой — это то, что мы называем SStot.

Итак, подставив значения SSres и SStot в уравнение R², мы получим значение где-то между 0 и 1.

Логика этого заключается в том, что ошибка в SStot всегда будет выше, поскольку мы берем среднее значение.

В то время как ошибка для SSres будет сравнительно ниже, чем SStot, что делает его меньшим значением.

Следовательно, SSres/SStot будет меньшим значением. Вычитание этого из 1 даст нам значение где-то между 0 и 1.

Если значение R² ближе к 1, то наша линия наилучшего соответствия достаточно хорошо соответствует модели.

Но подождите!! Можем ли мы столкнуться со сценарием, в котором значение R² меньше 0?

Да, значение R² может быть меньше 0 в тех случаях, когда выходные данные строки наилучшего соответствия хуже, чем средняя выходная строка. Это означает SSres ›SStot

Подставив значения в уравнение R² ниже:

Это означает, что модель, которую мы создали, вовсе не является хорошей моделью. Поэтому R² используется для проверки соответствия.

НЕДОСТАТКИ R²

У R² есть недостаток, который часто затрудняет прогнозирование точности модели.

Допустим, у нас есть простая модель линейной регрессии, которая имеет одну независимую функцию и уравнение y = ax + b. Теперь мы добавим в модель еще несколько независимых функций. Наше новое уравнение будет представлять собой модель множественной линейной регрессии с уравнением, похожим на y = ax1 + bx2 + cx3 + d. Таким образом, по мере увеличения числа независимых признаков наша R² также увеличивается.

КАК ПОВЫШАЕТСЯ СТОИМОСТЬ R²?

Каждый раз, когда мы добавляем независимую функцию, алгоритм линейной регрессии добавляет к этой функции значение коэффициента. Например, коэффициенты для приведенного выше уравнения равны a, b, c, которые добавляются при появлении новых функций x1, x2, x3. познакомились с моделью.

Алгоритм линейной регрессии присваивает коэффициенты таким образом, что значение SSres всегда будет уменьшаться всякий раз, когда мы добавляем новый независимый признак.

Если мы подставим эту логику в уравнение R²:

Звучит совершенно правильно, но не совсем!!

По мере того, как мы увеличиваем количество независимых признаков в модели, значение R² также будет увеличиваться, даже если независимые признаки не связаны с зависимой переменной.

Скорее всего, функция, которую мы включаем, может быть совершенно уникальной. Он может не иметь никакого отношения к целевой зависимой переменной, но все же иметь некоторое значение коэффициента, влияющего на результат. Алгоритм линейной регрессии работает таким образом, что добавляет значение коэффициента к каждому признаку, присутствующему в модели.

Бывший. предположим, что мы прогнозируем возраст учащихся, в котором наша модель может иметь одну из функций в виде контактного номера учащихся. Эта функция, по-видимому, не связана с возрастом, но все же может иметь некоторое значение коэффициента, влияющего на выходные данные, тем самым увеличивая общий R² модели.

Это явно означает, что R² не имеет ничего общего с корреляцией между независимыми функциями и зависимой переменной. Он просто увеличивается всякий раз, когда мы добавляем новую функцию в модель.

Чтобы предотвратить такие сценарии, мы используем Скорректированный R².

РЕГУЛИРОВКА R — КВАДРАТНАЯ

Формула для скорректированного R-квадрата выглядит следующим образом.

Где,

R² = R − квадрат значение

P = независимые функции
N = Выборка размер набора набора данных

Скорректированный — R² имеет штрафной коэффициент. Он наказывает за добавление независимой переменной, которая никак не влияет на модель или не коррелирует с зависимой переменной.

Чтобы понять этот штрафной фактор, давайте разделим его на 2 случая:

ДЕЛО — Я

Допустим, мы увеличили количество независимых функций (P) для модели. Эти функции на самом деле не вносят большого вклада в модель или не коррелируют с зависимой переменной.

Давайте заменим эту логику уравнением скорректированного R-квадрата. Значение для (N-P-1) будет уменьшаться по мере увеличения значения для P. Таким образом, значение (N-1)/(N-P-1) будет увеличиваться.

Теперь есть одна вещь, которую нам нужно понять здесь. Очевидно, что по мере добавления новых функций значение R-Squared будет увеличиваться. Но это увеличение будет незначительным по сравнению со значением (N-1)/(N-P-1), поскольку новые добавленные функции не коррелируют с зависимой переменной. Таким образом, (1−R²) сильно не уменьшится.

Теперь значение (N-1)/(N-P-1), умноженное на (1−R²), также не будет уменьшаться.

Наконец, вычитая его из 1, мы получим меньшее значение.

Вот как Скорректированный R-квадрат наказывает, когда признаки не коррелируют с зависимой переменной.

ДЕЛО — II

Теперь предположим, что мы добавляем функции, которые очень сильно коррелируют с зависимой переменной. В этом случае R² будет выше и превысит значение (N-1)/(N-P-1).

Таким образом, (1 — R²) будет меньшим значением, которое, умноженное на подавляющее значение (N-1)/(N-P-1), даст нам меньшее значение . Теперь, вычитая это из 1, мы получим Скорректированный R-квадрат, что является увеличенным значением по сравнению с предыдущим случаем.

Подставив эту логику в уравнение скорректированного R-квадрата

Таким образом, это означает, что когда независимые функции коррелируют с зависимой переменной, значение скорректированного R-квадрата увеличивается.

ЗАКЛЮЧЕНИЕ

1. Всякий раз, когда мы добавляем в модель независимую функцию, значение R-квадрата всегда будет увеличиваться, даже если независимая функция не коррелирует с зависимой переменной. Оно никогда не уменьшится. С другой стороны, скорректированный R-квадрат увеличивается только тогда, когда независимый признак коррелирует с зависимой переменной.

2. Значение скорректированного R-квадрата всегда будет меньше или равно значению R-квадрата.