Корреляция между признаками и между признаками | выходная метка, интуиция и реализация

В рамках обучения машинному обучению понимание корреляции между функциями помогает в различных аспектах предварительной обработки данных.

Корреляция — это статистическая мера, которая количественно определяет взаимосвязь между двумя переменными. Он показывает, как изменения одной переменной связаны с изменениями другой переменной. Вот преимущества и необходимость корреляционного анализа.

1. Одна переменная может быть причиной или зависеть от значений другой переменной.

2. Одна переменная может быть легко связана с другой переменной.

3. Две переменные могут зависеть от третьей неизвестной переменной.

Производительность некоторых алгоритмов может ухудшиться, если две или более переменных тесно связаны, что называется мультиколлинеарностью. Примером может служить линейная регрессия, в которой одна из коррелированных переменных, вызывающих нарушение, должна быть удалена, чтобы улучшить навыки модели.

Нас также может заинтересовать корреляция между входными переменными и выходной переменной, чтобы понять, какие переменные могут или не могут быть релевантными в качестве входных данных для разработки модели.

Связи между функциями:

Положительная корреляция: обе переменные изменяются в одном направлении.
Нейтральная корреляция: нет связи в изменении переменных.
Отрицательная корреляция: переменные изменяются в противоположных направлениях.

Показатели корреляции:

- коэффициент корреляции Пирсона.

- коэффициент корреляции Спирмена.

- корреляция Тау Кендалла коэффициента.

Преимущества корреляционного анализа:

Выявление взаимосвязей. Корреляционный анализ помогает понять природу и силу взаимосвязей между переменными. Он дает представление о том, как связаны переменные и есть ли у них отношения +ve, -ve или нет.
Выбор функций.Корреляционный анализ помогает в выборе функций, выявляя избыточные или сильно коррелированные функции. Функции с высокой степенью корреляции предоставляют аналогичную информацию, и сохранение обоих может не потребоваться. Удаление избыточных функций может упростить модель и улучшить ее интерпретируемость.
Прогностическая сила. Корреляционный анализ помогает определить прогностическую силу функций. Признаки с сильной корреляцией с целевой переменной, вероятно, окажут большее влияние на прогноз и могут считаться важными в процессе построения модели.
Предварительная обработка данных. Корреляционный анализ помогает выявить отсутствующие или ошибочные значения. Если переменные сильно коррелированы и для одной из них отсутствуют данные, это указывает на потенциальные проблемы с данными, которые необходимо решить перед анализом.
Разработка функций. Корреляционный анализ может направлять усилия по разработке функций. Это помогает определить потенциальные взаимодействия или нелинейные отношения между функциями, которые могут улучшить производительность модели. Изучая корреляции, вы можете создавать новые производные функции или преобразовывать существующие функции, чтобы зафиксировать сложные отношения и улучшить прогностическую силу модели.

1. Коэффициент корреляции Пирсона:

Коэффициент корреляции Пирсона является мерой линейной зависимости между двумя непрерывными переменными. Он количественно определяет силу и направление линейной связи между переменными.
Коэффициент находится в диапазоне от -1 до +1, где +1 указывает на полную положительную корреляцию, -1 указывает на полную отрицательную корреляцию, а 0 указывает на отсутствие корреляции. Также часто используется для анализа взаимосвязи между входными объектами и целевой переменной.
Выбросы влияют на коэффициент в Направлении корреляции, Силе корреляции, Предположении о линейности.
Более чувствителен к выбросам по сравнению с другими.
коэффициент предполагает определенную форму связи между переменными, которая представляет собой линейную зависимость.

Код Python:

из scipy.stats импортировать pearsonr

corr_coeff, p_value = pearsonr(X, y)

X, y могут быть массивами numpy, пандами DataFrame или списками, содержащими входные функции.
corr_coeff -> коэффициент корреляции.
p_vlaue -› статистическая значимость корреляции.
Если p_value меньше уровня значимости (p ‹ 0,05), мы отклоняем нулевую гипотезу и делаем вывод о наличии статистически значимой корреляции.
Если p_value больше уровня значимости, мы не можем отвергнуть нулевую гипотезу и сделать вывод, что недостаточно доказательств, подтверждающих статистически значимую корреляцию.
Значение p обычно вычисляется с использованием t-распределения.

2. Коэффициент корреляции Спирмена:

Измеряет силу и направление связи между двумя ранжированными переменными. По сути, он дает меру монотонности отношения между двумя переменными, т. Е. Насколько хорошо отношение между двумя переменными может быть представлено с использованием монотонной функции.

Код Python:

из scipy.stats импортировать spearmanr

corr_coeff, p_value = spearmanr(X, y)

X, y могут быть массивами numpy, пандами DataFrame или списками, содержащими входные функции.
corr_coeff -> коэффициент корреляции.
p_vlaue -› статистическая значимость корреляции.
p_value ‹ уровень значимости: Корреляция считается статистически значимой, что предполагает значимую связь между переменными.
p_value › уровень значимости: корреляция не является статистически значимой, что указывает на то, что наблюдаемая взаимосвязь могла возникнуть из-за случайного случая.
Значение p вычисляется с использованием теста перестановки или определенного распределения на основе рангов переменных.
Интуиция ранговой корреляции Спирмена заключается в том, что она вычисляет корреляцию Пирсона (например, параметрическую меру корреляции), используя ранговые значения вместо реальных значений.
Коэффициент Спирмена оценивает монотонную связь между переменными, но не предполагает конкретной формы связи. Он менее чувствителен к выбросам по сравнению с методом Пирсона и может обрабатывать переменные с нелинейными ассоциациями.
Выбросы влияют на коэффициент в Направлении корреляции, Силе корреляции, Предположении о линейности.
Менее чувствителен к выбросам по сравнению с корреляцией Пирсона.

Заключение:

В заключение, корреляционный анализ играет жизненно важную роль в предварительной обработке данных, проектировании признаков, масштабировании признаков и разработке моделей. Мы можем построить более точные и интерпретируемые прогностические модели с помощью понимания корреляции. По мере того, как мы продолжаем продвигаться в области машинного обучения, использование силы корреляций между функциями и с выходной меткой будет оставаться инструментом для достижения лучших результатов и извлечения значимой информации из наших данных.
Если вам понравилась эта статья, это будет много значить, если вы подпишитесь на меня.

Спасибо за прочтение!