Автор: Прити Ядав (Университет GLA, 201550105)

Регрессия. Регрессия – это контролируемый метод машинного обучения, который помогает прогнозировать непрерывные числовые значения или количества; Например, температура, цена и т. д. Модель регрессии может быть линейной или нелинейной функцией. Давайте разберемся с процессом линейной регрессии.

Давайте разберемся с концепцией на примере набора данных компьютерного сервисного центра, который записывает данные о времени (в минутах), необходимом для ремонта компьютера, и количестве неисправных устройств. Доступ к коду и набору данных https://github.com/Preeti-Yadav-CS1/computers

Импортируйте данные и поймите связь переменных:

Для импорта данных требуются базовые знания библиотек pandas, NumPy и matplotlib. По данным «Минуты» используются в качестве цели из значения «Единицы» (предиктор).

Чтобы оценить время, затрачиваемое сервисным центром на ремонт компьютера, мы можем предпочесть использовать либо среднее арифметическое (среднее арифметическое вычисляется как сумма всех значений, деленная на общее количество значений), либо медиану (медиана рассчитывается как среднее значение). наибольшую ценность в диапазоне значений, которые мы имеем при расположении в порядке.)

  1. Среднее арифметическое = 97,21 минуты (независимо от того, сколько у нас неисправных блоков, модель всегда будет предсказывать 97,21 минуты как время, необходимое для ремонта компьютера).
  2. Медиана = 96,50 минут

Давайте продолжим со средним арифметическим, построив график, на котором сравниваются различные значения времени, затраченного на ремонт компьютера (показанного на точечной диаграмме), со средним значением (представленным горизонтальной красной линией).

Из графика видно, что если «среднее» используется для прогнозирования времени, необходимого для ремонта компьютера, значительная разница между фактическим (наблюдаемым) значением и прогнозируемым значением велика, нам, возможно, придется учитывать другие факторы. также. Точечная диаграмма предполагает линейную зависимость между количеством замененных блоков и временем, затраченным на ремонт компьютера. Это означает, что по мере увеличения количества неисправных блоков время, затрачиваемое на ремонт компьютера, также увеличивается.

  • Например, 2-й ремонт занял 29 минут. Если бы мы использовали среднее значение для предсказания времени, мы бы предсказали время как 97,21 минуты. Здесь наблюдаемое время намного меньше предсказанного. С другой стороны, рассмотрим 13-й ремонт. Наблюдаемое время составляет 154 минуты, что больше предсказанного значения на целых 56,79 минуты.

Методы регрессии для улучшения:

Чтобы спрогнозировать стоимость ремонта компьютера на основе количества заменяемых устройств, можно построить регрессионную модель с использованием регрессионного анализа. Регрессионный анализ — это статистический процесс оценки взаимосвязей между переменными, который можно использовать для построения модели для прогнозирования значения целевой переменной на основе переменных-предикторов.

Математически модель регрессии представляется как y = f(X), где y — целевая или зависимая переменная, а X — набор предикторов или независимых переменных (x1, x2, …, xn).

Основываясь на количестве переменных-предикторов, мы можем разделить регрессионную модель на две части:

  1. Модель простой линейной регрессии. Если модель линейной регрессии включает только одну предикторную переменную, она называется моделью простой линейной регрессии. Пример: f(X) = ß0 + ß1x1 + ∈
  2. Модель множественной линейной регрессии. Если модель линейной регрессии включает несколько переменных-предикторов, она называется моделью множественной линейной регрессии. f(X) = ß0 + ß1x1 + ß2x2 + … + ßnxn + ∈. Отсюда вы можете понять визуализацию множественной линейной регрессии.

https://medium.com/@preetiyadavg76/multiple-linear-regression-understand-with-implementation-707cd35448fd

Значения ß известны как веса (ß0 также называется точкой пересечения, а последующие ß1, ß2 и т. д. называются коэффициентами). Предполагается, что ошибка ϵ имеет нормальное распределение с постоянной дисперсией.

Давайте продолжим

Простая модель линейной регрессии. Мы создадим модель для прогнозирования времени ремонта компьютера (количество неисправных устройств) с использованием простой модели линейной регрессии. Время, затрачиваемое на ремонт компьютера = ß0 + (ß1 * количество заменяемых единиц) + ε

Нам нужно найти наилучшие значения (β0, β1), которые могут отражать истинную природу зависимости между количеством неисправных блоков в компьютере и временем, затраченным на ремонт компьютера.

Создание и визуализация моделей спекулятивной регрессии. Мы попытаемся понять простую линейную регрессию с помощью трех моделей: model0, model 1 и model 2.

Графики, идентифицированные моделями, следующие:

Из графика видно, что Модель 1 и Модель 2 предсказывают значения времени, необходимого для ремонта компьютера лучше, чем Модель 0.

Чтобы отдельно проанализировать каждую модель, я написал отдельную статью, которую вы можете прочитать для более глубокого понимания концепции.

Ссылка: https://medium.com/@preetiyadavg76/simple-linear-regression-understand-with-implementation-732e923674d2

Это все о моделях линейной регрессии. Если вы хотите узнать больше о методах машинного обучения, дайте мне знать.

Спасибо за прочтение статьи.