Это вопрос для большинства новичков, которые попадают в науку о данных. мы постараемся получить ответ на этот вопрос.

что такое выброс?

Давным-давно, я сидел на лекции по математике, лектор углублялся, я чувствовал «почему я здесь сижу»? так как я был очень беден в числах. Мне приходилось задавать много вопросов после каждой темы, потом я понял, что я был исключением в том классе, где все остальные были в состоянии понять классы.

Итак, какое влияние я оказал как исключение?

Поскольку у меня было несколько вопросов, я остановил поток лектора, что снизило общую эффективность лектора. Она не могла избежать меня, так как я был частью класса

Какие сейчас возможности?

Преподаватель может выгнать меня из класса, чтобы повысить общую эффективность, или я могу улучшить свои знания по математике, чтобыя мог объединиться с другими студентами

Мораль этой истории такова: как только вы обнаружите выбросы, либо устраните их, либо обработайте их, чтобы повысить эффективность модели.

Статистически выбросы — это те, которые лежат очень далеко от остальных точек данных в наборе данных, и это оказывает значительное влияние на производительность линейной регрессии. Но как мы можем это оценить?

давайте возьмем простой пример: возраст как функция и зарплата как цель

import numpy as np
from matplotlib import pyplot as plt

Age = np.array([20,25,30,35,40,45,50,200])
salary = np.array([20000,30000,40000,50000,75000,80000,100000,80000])

мы знаем, что линия регрессии может быть записана как y = mx + c

y = целевая переменная,
x = функция,
c = y-пересечение линии регрессии,
m = наклон линии регрессии

при построении линии регрессии,

из приведенных выше графиков мы видим, что точка данных с возрастом 200 лет (да, это невозможно, но только для иллюстрации) является выбросом в наборе данных. что мы можем сделать из сюжетов?

  • Среднее значение распределенияотклонилось от отклонений в наборе данных
  • наклон линии регрессии значительно улучшился с 215 до 2678, что привело к линейной стабильности модели
  • коэффициент корреляции улучшился с 0,45 до 0,99.
  • Наконец, Rсредняя квадратичная ошибка (RMSE) уменьшила несколько раз, что может повысить эффективность модели.

Теперь вернемся к вопросу «Повлияет ли выброс на линейную регрессию? ». Да, это так. Если один выброс в одной функции может так сильно повлиять на производительность модели, представьте влияние nфункций.

Примечание. Я удалил выброс из набора данных, так как знаю, что возраст 200 лет невозможен, но в режиме реального времени всегда рекомендуется обрабатывать или устранять на основе набора данных и его свойства.

Подпишитесь на меня, чтобы узнать больше…