Матрица путаницы — это мощный инструмент для анализа эффективности классификатора. Давайте подробно обсудим концепцию матрицы путаницы.

Матрица путаницы — это таблица, которая часто используется для описания производительности модели классификации (или «классификатора») на наборе тестовых данных, для которых известны истинные значения. Классификатор — это модель, которая классифицирует данные по разным категориям на основе их общих характеристик.

Общая идея заключается в том, что у вас есть некоторое представление о том, как должен работать ваш классификатор, а матрица путаницы позволяет вам увидеть, работает ли он так, как ожидалось. Каждая строка в матрице представляет экземпляры в прогнозируемом классе, а каждый столбец представляет экземпляры в реальном классе (или наоборот).

Диагональные элементы представляют правильные прогнозы, а недиагональные элементы представляют неправильные прогнозы. Чем выше количество правильных прогнозов, тем выше производительность модели.

Есть несколько вещей, которые вы можете узнать из матрицы путаницы:

1. Сколько классов у ваших данных?

2. Насколько хорошо ваш классификатор предсказывает каждый класс?

3. Смещен ли ваш классификатор в сторону какого-либо конкретного класса?

4. Есть ли классы, которые часто путают с другими классами?

Чтобы попробовать матрицу путаницы с простым набором данных, давайте возьмем набор данных диагностики сердечно-сосудистых заболеваний. Основная цель этой классификации состоит в том, чтобы предсказать на основе данных характеристик пациента, есть ли у конкретного человека болезнь сердца или нет.

Этот набор данных классифицируется с использованием логистической регрессии, и была создана следующая матрица путаницы:

Понимание матрицы путаницы

В простейшем случае матрица путаницы представляет собой таблицу, которую можно использовать для оценки эффективности модели классификации. Таблица содержит четыре квадранта, каждый из которых представляет количество прогнозируемых классов для каждого фактического класса.

· Истинно положительные результаты (TP) — это случаи, когда модель правильно предсказывает положительный класс.

· Истинно отрицательные значения (TN) – это случаи, когда модель правильно предсказывает отрицательный класс.

· Ложные срабатывания (FP, ошибка типа 1) — это случаи, когда модель неверно предсказывает положительный класс.

· Ложноотрицательные результаты (FN, ошибка типа 2) – это случаи, когда модель неверно предсказывает отрицательный класс.

В случае болезни сердца 21 пациент с болезнью сердца был правильно предсказан, а 3 пациента без него были неправильно предсказаны. 38 пациентов без сердечного заболевания были предсказаны правильно, а 14 без него - ошибочно.

Форма матрицы путаницы

Форма матрицы путаницы определяется количеством классов. Если количество классов равно n, форма матрицы будет n x n.

Например, в задаче о болезни сердца мы должны предсказать, есть ли у пациента болезнь сердца или нет. Итак, количество классов равно 2. Следовательно, мы получили матрицу 2 х 2.

Точность

Точность измеряет, насколько часто наши прогнозы верны.

Точность = TP/(TP+FP)

Вспомнить

Отзыв измеряет, как часто модель правильно предсказывает положительные классы.

Отзыв = TP/(TP+FN)

Повышение точности снижает отзыв и наоборот. Это известно как компромисс между точностью и отзывом.

Точность

Точность измеряет, как часто модель предсказывает правильные выходные данные.

Точность = (TP+TN)/(TP+TN+FP+FN)

Конкретность

Специфичность измеряет, как часто модель правильно предсказывает отрицательные классы.

Специфичность = TN/(TN+FP)

Вы также можете использовать матрицу путаницы для сравнения различных моделей машинного обучения. Это может помочь вам выбрать лучшую модель для вашего набора данных.