Регрессия — это процесс оценки взаимосвязей между зависимой переменной при наличии одной или нескольких независимых переменных. Производительность регрессионной модели оценивается путем сравнения скорости изменения прогнозируемых результатов по сравнению с фактическими результатами.
частота остаточных ошибок = прогнозируемое значение – фактическое значение
Этот пост в блоге посвящен различным метрикам оценки регрессионной модели и тому, когда какие метрики использовать!
Эти показатели оценки включают штраф за пропущенное прогнозируемое значение.
Среднеквадратическая ошибка (MSE)
Среднее + квадрат + ошибка = среднее значение квадрата разницы между фактическим и прогнозируемым значением.
Среднее значение = 1 / n* сумма от i до n
Квадрат ошибки = (y - ŷ) ²
Примечание. Чем меньше значение MAE, тем выше производительность вашей модели.
Поскольку этот квадрат является виновником, мы перешли на корневой MSE, чтобы избавиться от него.
Среднеквадратичная ошибка (RMSE)
Корень + среднеквадратическая ошибка, как следует из названия, это корневое значение MSE.
Корень = √ среднеквадратическая ошибка
Примечание. Чем меньше значение MAE, тем выше производительность вашей модели.
Что касается производительности: RMSE › MSE, мы часто используем RMSE
Средняя абсолютная ошибка (MAE)
Среднее + абсолютное + ошибка = среднее значение разницы между фактическим и прогнозируемым значением.
Среднее значение = 1 / n * сумма от i до n
Ошибка в квадрате = (yᵢ - xᵢ)
Примечание. Чем меньше значение MAE, тем выше производительность вашей модели.
С точки зрения производительности: RMSE = MAE
Поэтому в идеале мы выбираем либо RMSE, либо MAE в зависимости от варианта использования, если большие ошибки строго наказуемы, используйте RMSE, но если вам нужна метрика ошибок, которая может обрабатывать все ошибки одинаково и возвращает более интерпретируемое значение ошибки, используйте MAE.
Оценка R²
В отличие от других показателей, попытка найти разницу между прогнозируемыми и фактическими значениями для целевого значения. Этот показатель в основном фокусируется на оценке качества модели путем сравнения ее с случайной фиктивной моделью, построенной с использованием среднего значения целевых значений.
R-квадрат объясняет, в какой степени дисперсия независимой переменной объясняет дисперсию целевой переменной.
R² = сумма невязки или ошибки (остаточная ошибка фактической модели) / сумма средней суммы (остаточная ошибка случайной модели)
Примечание. Когда мы добавляем в набор данных нерелевантный признак, возникает проблема, R² никогда не уменьшается, поскольку предполагается, что добавление дополнительных данных увеличивает дисперсию данных невинный R² начинает увеличиваться или остается постоянным.
Скорректированный-R²
Скорректировано R² = изменено, чтобы исправить минусы от R².
Эта метрика была разработана для получения точных результатов независимо от количества функций и их взаимной связи путем наказания несвязанных функций.
N = размер набора данных
p = количество независимых функций
Сравнение
- Если сравнивать точность прогноза между различными моделями линейной регрессии, лучше выбрать RMSE, так как его легко вычислить и отличить.
- Если в вашем наборе данных есть выбросы, выберите MAE вместо RMSE.
- Скорректированный R² используется, когда набор данных содержит больше функций и вам нужно выбрать наиболее эффективные функции.
- R² и MSE являются «эквивалентными» в том смысле, что любая модель с лучшим R-квадратом также будет иметь лучший MSE, и наоборот.
Пожалуйста, обратитесь к официальной документации Scikit-learn для реализации этих метрик: https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics
Дайте мне знать о любых предложениях или разъяснениях в комментариях!