Введение
R-квадрат и скорректированный R-квадрат — ключевые методы проверки точности регрессионной задачи. Мы подробно разберем каждый из них в последующих разделах.
Существуют различные методы проверки точности различных задач. В случае проблем с классификацией мы используем матрицу путаницы, F1-Score, Precision, Recall и т. д.
R-КВАДРАТ
Формула для R-квадрата:
Где,
SSres = сумма остатка
SStot = сумма среднего итога
НАИЛУЧШАЯ ФИТ ЛИНИЯ
Чтобы понять, что такое SSres, давайте возьмем график, чтобы понять, что
Синие точки на графике — это фактические точки. Двусторонняя стрелка между каждой синей точкой и перпендикулярной линией (линия наилучшего соответствия) показывает разницу между прогнозируемой и фактической точкой. Это ошибка/остаток. Суммирование всех этих различий между фактической и прогнозируемой точкой — это то, что мы называем SSres.
СРЕДНЯЯ ПОДГОНКА
На приведенном выше рисунке видно, что вместо поиска линии наилучшего соответствия берется средняя выходная линия. Синие точки на графике — это фактические точки.
Двусторонняя стрелка между каждой синей точкой и средней выходной линией показывает разницу между прогнозируемой и фактической точкой. Суммирование всех этих различий между фактической и прогнозируемой точкой — это то, что мы называем SStot.
Итак, подставив значения SSres и SStot в уравнение R², мы получим значение где-то между 0 и 1.
Логика этого заключается в том, что ошибка в SStot всегда будет выше, поскольку мы берем среднее значение.
В то время как ошибка для SSres будет сравнительно ниже, чем SStot, что делает его меньшим значением.
Следовательно, SSres/SStot будет меньшим значением. Вычитание этого из 1 даст нам значение где-то между 0 и 1.
Если значение R² ближе к 1, то наша линия наилучшего соответствия достаточно хорошо соответствует модели.
Но подождите!! Можем ли мы столкнуться со сценарием, в котором значение R² меньше 0?
Да, значение R² может быть меньше 0 в тех случаях, когда выходные данные строки наилучшего соответствия хуже, чем средняя выходная строка. Это означает SSres ›SStot
Подставив значения в уравнение R² ниже:
Это означает, что модель, которую мы создали, вовсе не является хорошей моделью. Поэтому R² используется для проверки соответствия.
НЕДОСТАТКИ R²
У R² есть недостаток, который часто затрудняет прогнозирование точности модели.
Допустим, у нас есть простая модель линейной регрессии, которая имеет одну независимую функцию и уравнение y = ax + b. Теперь мы добавим в модель еще несколько независимых функций. Наше новое уравнение будет представлять собой модель множественной линейной регрессии с уравнением, похожим на y = ax1 + bx2 + cx3 + d. Таким образом, по мере увеличения числа независимых признаков наша R² также увеличивается.
КАК ПОВЫШАЕТСЯ СТОИМОСТЬ R²?
Каждый раз, когда мы добавляем независимую функцию, алгоритм линейной регрессии добавляет к этой функции значение коэффициента. Например, коэффициенты для приведенного выше уравнения равны a, b, c, которые добавляются при появлении новых функций x1, x2, x3. познакомились с моделью.
Алгоритм линейной регрессии присваивает коэффициенты таким образом, что значение SSres всегда будет уменьшаться всякий раз, когда мы добавляем новый независимый признак.
Если мы подставим эту логику в уравнение R²:
Звучит совершенно правильно, но не совсем!!
По мере того, как мы увеличиваем количество независимых признаков в модели, значение R² также будет увеличиваться, даже если независимые признаки не связаны с зависимой переменной.
Скорее всего, функция, которую мы включаем, может быть совершенно уникальной. Он может не иметь никакого отношения к целевой зависимой переменной, но все же иметь некоторое значение коэффициента, влияющего на результат. Алгоритм линейной регрессии работает таким образом, что добавляет значение коэффициента к каждому признаку, присутствующему в модели.
Бывший. предположим, что мы прогнозируем возраст учащихся, в котором наша модель может иметь одну из функций в виде контактного номера учащихся. Эта функция, по-видимому, не связана с возрастом, но все же может иметь некоторое значение коэффициента, влияющего на выходные данные, тем самым увеличивая общий R² модели.
Это явно означает, что R² не имеет ничего общего с корреляцией между независимыми функциями и зависимой переменной. Он просто увеличивается всякий раз, когда мы добавляем новую функцию в модель.
Чтобы предотвратить такие сценарии, мы используем Скорректированный R².
РЕГУЛИРОВКА R — КВАДРАТНАЯ
Формула для скорректированного R-квадрата выглядит следующим образом.
Где,
R² = R − квадрат значение
P = независимые функции
N = Выборка размер набора набора данных
Скорректированный — R² имеет штрафной коэффициент. Он наказывает за добавление независимой переменной, которая никак не влияет на модель или не коррелирует с зависимой переменной.
Чтобы понять этот штрафной фактор, давайте разделим его на 2 случая:
ДЕЛО — Я
Допустим, мы увеличили количество независимых функций (P) для модели. Эти функции на самом деле не вносят большого вклада в модель или не коррелируют с зависимой переменной.
Давайте заменим эту логику уравнением скорректированного R-квадрата. Значение для (N-P-1) будет уменьшаться по мере увеличения значения для P. Таким образом, значение (N-1)/(N-P-1) будет увеличиваться.
Теперь есть одна вещь, которую нам нужно понять здесь. Очевидно, что по мере добавления новых функций значение R-Squared будет увеличиваться. Но это увеличение будет незначительным по сравнению со значением (N-1)/(N-P-1), поскольку новые добавленные функции не коррелируют с зависимой переменной. Таким образом, (1−R²) сильно не уменьшится.
Теперь значение (N-1)/(N-P-1), умноженное на (1−R²), также не будет уменьшаться.
Наконец, вычитая его из 1, мы получим меньшее значение.
Вот как Скорректированный R-квадрат наказывает, когда признаки не коррелируют с зависимой переменной.
ДЕЛО — II
Теперь предположим, что мы добавляем функции, которые очень сильно коррелируют с зависимой переменной. В этом случае R² будет выше и превысит значение (N-1)/(N-P-1).
Таким образом, (1 — R²) будет меньшим значением, которое, умноженное на подавляющее значение (N-1)/(N-P-1), даст нам меньшее значение . Теперь, вычитая это из 1, мы получим Скорректированный R-квадрат, что является увеличенным значением по сравнению с предыдущим случаем.
Подставив эту логику в уравнение скорректированного R-квадрата
Таким образом, это означает, что когда независимые функции коррелируют с зависимой переменной, значение скорректированного R-квадрата увеличивается.
ЗАКЛЮЧЕНИЕ
1. Всякий раз, когда мы добавляем в модель независимую функцию, значение R-квадрата всегда будет увеличиваться, даже если независимая функция не коррелирует с зависимой переменной. Оно никогда не уменьшится. С другой стороны, скорректированный R-квадрат увеличивается только тогда, когда независимый признак коррелирует с зависимой переменной.
2. Значение скорректированного R-квадрата всегда будет меньше или равно значению R-квадрата.