Матрица путаницы — это мощный инструмент для анализа эффективности классификатора. Давайте подробно обсудим концепцию матрицы путаницы.
Матрица путаницы — это таблица, которая часто используется для описания производительности модели классификации (или «классификатора») на наборе тестовых данных, для которых известны истинные значения. Классификатор — это модель, которая классифицирует данные по разным категориям на основе их общих характеристик.
Общая идея заключается в том, что у вас есть некоторое представление о том, как должен работать ваш классификатор, а матрица путаницы позволяет вам увидеть, работает ли он так, как ожидалось. Каждая строка в матрице представляет экземпляры в прогнозируемом классе, а каждый столбец представляет экземпляры в реальном классе (или наоборот).
Диагональные элементы представляют правильные прогнозы, а недиагональные элементы представляют неправильные прогнозы. Чем выше количество правильных прогнозов, тем выше производительность модели.
Есть несколько вещей, которые вы можете узнать из матрицы путаницы:
1. Сколько классов у ваших данных?
2. Насколько хорошо ваш классификатор предсказывает каждый класс?
3. Смещен ли ваш классификатор в сторону какого-либо конкретного класса?
4. Есть ли классы, которые часто путают с другими классами?
Чтобы попробовать матрицу путаницы с простым набором данных, давайте возьмем набор данных диагностики сердечно-сосудистых заболеваний. Основная цель этой классификации состоит в том, чтобы предсказать на основе данных характеристик пациента, есть ли у конкретного человека болезнь сердца или нет.
Этот набор данных классифицируется с использованием логистической регрессии, и была создана следующая матрица путаницы:
Понимание матрицы путаницы
В простейшем случае матрица путаницы представляет собой таблицу, которую можно использовать для оценки эффективности модели классификации. Таблица содержит четыре квадранта, каждый из которых представляет количество прогнозируемых классов для каждого фактического класса.
· Истинно положительные результаты (TP) — это случаи, когда модель правильно предсказывает положительный класс.
· Истинно отрицательные значения (TN) – это случаи, когда модель правильно предсказывает отрицательный класс.
· Ложные срабатывания (FP, ошибка типа 1) — это случаи, когда модель неверно предсказывает положительный класс.
· Ложноотрицательные результаты (FN, ошибка типа 2) – это случаи, когда модель неверно предсказывает отрицательный класс.
В случае болезни сердца 21 пациент с болезнью сердца был правильно предсказан, а 3 пациента без него были неправильно предсказаны. 38 пациентов без сердечного заболевания были предсказаны правильно, а 14 без него - ошибочно.
Форма матрицы путаницы
Форма матрицы путаницы определяется количеством классов. Если количество классов равно n, форма матрицы будет n x n.
Например, в задаче о болезни сердца мы должны предсказать, есть ли у пациента болезнь сердца или нет. Итак, количество классов равно 2. Следовательно, мы получили матрицу 2 х 2.
Точность
Точность измеряет, насколько часто наши прогнозы верны.
Точность = TP/(TP+FP)
Вспомнить
Отзыв измеряет, как часто модель правильно предсказывает положительные классы.
Отзыв = TP/(TP+FN)
Повышение точности снижает отзыв и наоборот. Это известно как компромисс между точностью и отзывом.
Точность
Точность измеряет, как часто модель предсказывает правильные выходные данные.
Точность = (TP+TN)/(TP+TN+FP+FN)
Конкретность
Специфичность измеряет, как часто модель правильно предсказывает отрицательные классы.
Специфичность = TN/(TN+FP)
Вы также можете использовать матрицу путаницы для сравнения различных моделей машинного обучения. Это может помочь вам выбрать лучшую модель для вашего набора данных.