Регрессия — это процесс оценки взаимосвязей между зависимой переменной при наличии одной или нескольких независимых переменных. Производительность регрессионной модели оценивается путем сравнения скорости изменения прогнозируемых результатов по сравнению с фактическими результатами.

частота остаточных ошибок = прогнозируемое значение – фактическое значение

Этот пост в блоге посвящен различным метрикам оценки регрессионной модели и тому, когда какие метрики использовать!

Эти показатели оценки включают штраф за пропущенное прогнозируемое значение.

Среднеквадратическая ошибка (MSE)

Среднее + квадрат + ошибка = среднее значение квадрата разницы между фактическим и прогнозируемым значением.

Среднее значение = 1 / n* сумма от i до n

Квадрат ошибки = (y - ŷ) ²

Примечание. Чем меньше значение MAE, тем выше производительность вашей модели.

Поскольку этот квадрат является виновником, мы перешли на корневой MSE, чтобы избавиться от него.

Среднеквадратичная ошибка (RMSE)

Корень + среднеквадратическая ошибка, как следует из названия, это корневое значение MSE.

Корень = √ среднеквадратическая ошибка

Примечание. Чем меньше значение MAE, тем выше производительность вашей модели.

Что касается производительности: RMSE › MSE, мы часто используем RMSE

Средняя абсолютная ошибка (MAE)

Среднее + абсолютное + ошибка = среднее значение разницы между фактическим и прогнозируемым значением.

Среднее значение = 1 / n * сумма от i до n

Ошибка в квадрате = (yᵢ - xᵢ)

Примечание. Чем меньше значение MAE, тем выше производительность вашей модели.

С точки зрения производительности: RMSE = MAE

Поэтому в идеале мы выбираем либо RMSE, либо MAE в зависимости от варианта использования, если большие ошибки строго наказуемы, используйте RMSE, но если вам нужна метрика ошибок, которая может обрабатывать все ошибки одинаково и возвращает более интерпретируемое значение ошибки, используйте MAE.

Оценка R²

В отличие от других показателей, попытка найти разницу между прогнозируемыми и фактическими значениями для целевого значения. Этот показатель в основном фокусируется на оценке качества модели путем сравнения ее с случайной фиктивной моделью, построенной с использованием среднего значения целевых значений.

R-квадрат объясняет, в какой степени дисперсия независимой переменной объясняет дисперсию целевой переменной.

R² = сумма невязки или ошибки (остаточная ошибка фактической модели) / сумма средней суммы (остаточная ошибка случайной модели)

Примечание. Когда мы добавляем в набор данных нерелевантный признак, возникает проблема, R² никогда не уменьшается, поскольку предполагается, что добавление дополнительных данных увеличивает дисперсию данных невинный R² начинает увеличиваться или остается постоянным.

Скорректированный-R²

Скорректировано R² = изменено, чтобы исправить минусы от R².

Эта метрика была разработана для получения точных результатов независимо от количества функций и их взаимной связи путем наказания несвязанных функций.

N = размер набора данных

p = количество независимых функций

Сравнение

  • Если сравнивать точность прогноза между различными моделями линейной регрессии, лучше выбрать RMSE, так как его легко вычислить и отличить.
  • Если в вашем наборе данных есть выбросы, выберите MAE вместо RMSE.
  • Скорректированный R² используется, когда набор данных содержит больше функций и вам нужно выбрать наиболее эффективные функции.
  • R² и MSE являются «эквивалентными» в том смысле, что любая модель с лучшим R-квадратом также будет иметь лучший MSE, и наоборот.

Пожалуйста, обратитесь к официальной документации Scikit-learn для реализации этих метрик: https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics

Дайте мне знать о любых предложениях или разъяснениях в комментариях!

Ссылка: