Машинное обучение: методы измерения производительности модели

Мы должны быть в состоянии проверить успех наших результатов, прежде чем мы начнем писать алгоритмы классификации.

В этой статье будут рассмотрены некоторые из наиболее важных методов оценки эффективности классификации. Они следующие:

Точность
Матрица путаницы
Точность и отзыв
ROC-кривая

Точность

Вы помните, как сдавали экзамены с несколькими вариантами ответов в средней школе или университете? Проблемы классификации в машинном обучении очень похожи. Ваша задача состоит в том, чтобы отнести утверждение к одному из предложенных «ответов» с несколькими вариантами ответов. Бинарный классификатор используется, когда есть только два варианта, например, в истинном или ложном экзамене. Если бы это был оцениваемый экзамен в школе, чтобы получить оценку, вы бы подсчитали количество правильных ответов и разделили ее на общее количество вопросов.

Эта же стратегия оценки используется машинным обучением и называется точностью. Для определения точности используется следующая формула.

Эта формула (рис. 1) дает приблизительную оценку производительности, которой может быть достаточно, если вас интересует только общая правильность алгоритма. Метрика точности, с другой стороны, не показывает разбивку правильных и неправильных результатов для каждой метки.

Чтобы преодолеть это ограничение, матрица путаницы представляет собой более подробный отчет об успехе классификатора. Так что же такое матрица путаницы?

Матрица путаницы

Изучение того, как классификатор работает с каждым из классов, является полезным способом описания того, насколько хорошо он работает.

Здесь.
TP = True Positives
FN = False Negatives
FP = False Positives
TN = True Negatives

Истинные положительные результаты (TP) — это элементы данных, которые правильно предсказаны как положительные. Ложноположительные результаты (FP) — это те, которые ошибочно расцениваются как положительные. Ложный отрицательный результат (FN) возникает, когда алгоритм неправильно предсказывает отрицательное значение элемента, хотя на самом деле оно положительное. Наконец, истинный отрицательный результат (TN) возникает, когда предсказание и реальность согласуются с тем, что элемент данных является отрицательной меткой.

Рассмотрим бинарный классификатор с метками «положительный» и «отрицательный». Матрица путаницы, как показано на рисунке 2, представляет собой таблицу, в которой сравниваются предсказанные ответы с фактическими ответами.

Как мы видим, она называется матрицей путаницы, потому что позволяет легко увидеть, как часто модель смешивает два класса, которые она пытается различить.

Точность и отзыв

Хотя определения истинных положительных результатов (TP), ложных положительных результатов (FP), истинных отрицательных результатов (TN) и ложных отрицательных результатов (FN) полезны сами по себе, именно взаимодействие между ними обеспечивает истинную силу. Здесь в игру вступают точность и память.

Точность

Отношение истинных положительных результатов к общему количеству положительных примеров называется точностью. Это оценка, которая показывает, насколько вероятно, что положительный прогноз верен. На рис. 2 в левой колонке показано общее количество положительных прогнозов (TP + FP). Математическое уравнение для точности показано на рисунке 3.

Вспомнить

Отношение истинных положительных результатов ко всем возможным положительным результатам называется отзывом. Он вычисляет долю обнаруженных истинных срабатываний. Другими словами, это оценка, основанная на том, сколько истинных положительных результатов было правильно предсказано (или «вспомнено»).
Верхняя строка на рисунке 2 представляет общее количество всех положительных результатов (TP + FN). Уравнение отзыва показано на рисунке 4.

Теперь, когда мы рассмотрели теоретическую часть, давайте перейдем к некоторым практическим примерам.

Предположим, мы пытаемся идентифицировать собак в коллекции из 100 изображений. 60 изображений — собаки, 40 — кошки. Когда мы запустили наш классификатор, 10 кошек были классифицированы как собаки, а 20 собак были классифицированы как кошки. В результате наша матрица путаницы выглядит следующим образом:

Мы хотим измерить точность и полноту, а также точность модели для кошек. Итак, как мы это вычисляем?

Точность = 30/(30+20) или 3/5
Полнота = 30/(30+10) или 3/4
и
точность модели = (30+40)/100 или 70%

Проще говоря, точность относится к проценту ваших предсказаний, которые были правильными, а полнота относится к проценту правильных элементов, найденных в финальном наборе.

Кривая ROC (рабочая характеристика приемника)

Кривая ROC представляет собой график, показывающий ложноположительные и истинноположительные компромиссы. Ось x представляет ложноположительные значения, тогда как ось y представляет фактические положительные значения.

Двоичный классификатор преобразует входной вектор признаков в число, а затем определяет, к какому классу он принадлежит, в зависимости от того, больше или меньше число порогового значения. Мы наносим на график различные значения истинно-положительных и ложно-положительных показателей, когда мы настраиваем порог классификатора машинного обучения.

Сравнение кривых ROC разных классификаторов является надежным методом их сравнения. Когда две кривые не пересекаются, то один подход определенно лучше другого. Хорошие алгоритмы намного превосходят базовый уровень (см. рис. 6).

Площадь под ROC-кривой — это количественный метод сравнения классификаторов. Если значение площади под кривой (AUC) модели больше 0,9, это считается хорошим классификатором. Значение AUC модели, которая оценивает результат случайным образом, будет около 0,5. В качестве примера см. рисунки 6 и 7.

Заключение

В этой статье я кратко изложил стратегии оценки производительности модели. Увидимся в следующей статье, а пока удачного обучения...

Свяжитесь со мной

LinkedIn: https://www.linkedin.com/in/sourav-saha17/

Машинное обучение: методы измерения производительности модели

Точность

Матрица путаницы

Точность и отзыв

Заключение

Вопросы по теме