Это вопрос для большинства новичков, которые попадают в науку о данных. мы постараемся получить ответ на этот вопрос.
что такое выброс?
Давным-давно, я сидел на лекции по математике, лектор углублялся, я чувствовал «почему я здесь сижу»? так как я был очень беден в числах. Мне приходилось задавать много вопросов после каждой темы, потом я понял, что я был исключением в том классе, где все остальные были в состоянии понять классы.
Итак, какое влияние я оказал как исключение?
Поскольку у меня было несколько вопросов, я остановил поток лектора, что снизило общую эффективность лектора. Она не могла избежать меня, так как я был частью класса
Какие сейчас возможности?
Преподаватель может выгнать меня из класса, чтобы повысить общую эффективность, или я могу улучшить свои знания по математике, чтобыя мог объединиться с другими студентами
Мораль этой истории такова: как только вы обнаружите выбросы, либо устраните их, либо обработайте их, чтобы повысить эффективность модели.
Статистически выбросы — это те, которые лежат очень далеко от остальных точек данных в наборе данных, и это оказывает значительное влияние на производительность линейной регрессии. Но как мы можем это оценить?
давайте возьмем простой пример: возраст как функция и зарплата как цель
import numpy as np from matplotlib import pyplot as plt Age = np.array([20,25,30,35,40,45,50,200]) salary = np.array([20000,30000,40000,50000,75000,80000,100000,80000])
мы знаем, что линия регрессии может быть записана как y = mx + c
y = целевая переменная,
x = функция,
c = y-пересечение линии регрессии,
m = наклон линии регрессии
при построении линии регрессии,
из приведенных выше графиков мы видим, что точка данных с возрастом 200 лет (да, это невозможно, но только для иллюстрации) является выбросом в наборе данных. что мы можем сделать из сюжетов?
- Среднее значение распределенияотклонилось от отклонений в наборе данных
- наклон линии регрессии значительно улучшился с 215 до 2678, что привело к линейной стабильности модели
- коэффициент корреляции улучшился с 0,45 до 0,99.
- Наконец, Rсредняя квадратичная ошибка (RMSE) уменьшила несколько раз, что может повысить эффективность модели.
Теперь вернемся к вопросу «Повлияет ли выброс на линейную регрессию? ». Да, это так. Если один выброс в одной функции может так сильно повлиять на производительность модели, представьте влияние nфункций.
Примечание. Я удалил выброс из набора данных, так как знаю, что возраст 200 лет невозможен, но в режиме реального времени всегда рекомендуется обрабатывать или устранять на основе набора данных и его свойства.
Подпишитесь на меня, чтобы узнать больше…