Машинное обучение и статистика всегда сбивают с толку не только алгоритмы, но и оценку результатов. Матрица неточностей, таблица непредвиденных обстоятельств и многие другие - все это методы визуализации для облегчения понимания значения параметров оценки. Вы должны слышать об этих параметрах каждый день, например, когда люди говорят о чувствительности и специфичности ПЦР-теста на COVID-19.

В этом посте я объединю, казалось бы, похожие концепции показателей оценки как из статистики, так и из машинного обучения. Эти параметры выбраны на основе моего личного опыта обучения.

Проверка гипотез в статистике и эффективность прогнозов в машинном обучении

Проверка гипотез

В статистике таблица 2x2 используется для обобщения статистических результатов и истины. Краткая инструкция по формулированию гипотезы. Допустим, мы проверяем две гипотезы, одна из которых ближе к истине. В статистике, если вы не можете отвергнуть гипотезу, это не означает, что вы «принимаете» ее истинность, это просто означает, что вы не можете отвергнуть эту возможность, что она истинна, и есть все другие возможные гипотезы, включая альтернативную гипотезу. . В этом случае мы не завершаем вопрос. С другой стороны, если вы «отвергаете» гипотезу, это означает, что другая гипотеза, которую вы проверяете, не может быть отклонена, поэтому вывод будет сделан на основе этой предпосылки. Следовательно, мы хотим «отвергнуть» гипотезу больше, чем «не отклонить» ее; следовательно, мы хотим «не отвергнуть» наш ожидаемый результат, отвергнув нежелательный результат. Например, когда я тестирую, оказывают ли лекарство А и лекарство В разные эффекты на пациентов, как исследователь, я хочу увидеть разницу; следовательно, нулевая гипотеза здесь (H0) может заключаться в отсутствии разницы между двумя препаратами, а альтернативная гипотеза (H1) может заключаться в наличии разницы. Отказ от H0 приводит к выводу, что мы не можем отвергнуть H1, и, следовательно, существует статистическая разница между действием двух препаратов.

Машинное обучение

В машинном обучении мы хотим видеть, насколько хорошо предсказание модели согласуется с истиной. Следовательно, создается таблица сопряженности с «истинностью» и «предсказанием», и все выборки можно разделить на четыре возможных результата: TP, TN, FP, FN. Объяснение этих результатов и параметров производительности см. На рис. 2.
Теперь вы также можете много слышать о «точности» и «отзыве». Кто они такие? При выполнении проекта машинного обучения с учителем вам нужно сначала пометить образцы результатами, как для истинных, так и для прогнозируемых результатов, давайте возьмем + (положительный) и - (отрицательный) в качестве примера. На рисунке 3 показаны определения точности и полноты, а также их гармоническое среднее значение, F1-балл.

Точность = PPV
Напоминание = чувствительность = TPR

Теперь вы можете понять, что точность и отзыв зависят от прогнозов модели относительно FP и FN, и, следовательно, это всегда «компромисс». Но каков «порог», определяющий наилучшее сочетание точности и отзывчивости? Что означает порог?

Опять же, в проекте машинного обучения, если используется нейронная сеть, то результат классификации бинарного класса генерируется вероятностью уверенности модели в двух классах, например, прогнозировать 0 с достоверностью 80% и 1 с 20. % уверенности, и, следовательно, прогноз результата будет 0. Я не буду вдаваться в подробности относительно того, как может быть выполнено кодирование для передачи вероятности классам; однако суть здесь в том, что вероятностью определения максимального уровня прогнозирования от 0 до 1, то есть порога, также можно управлять с помощью кодирования. Следовательно, в следующий раз, когда вы прочитаете статью о машинном обучении и заявите, что порог решения был найден на основе показателей производительности, вы поймете, что порог - это граница, установленная исследователями, которая различает предсказание 0 и 1.

Прочие параметры

Я также столкнулся с несколькими другими параметрами производительности машинного обучения. Эти параметры будут обновлены здесь.

  1. Коэффициент корреляции Мэтьюза (MCC)

(1) Значение всегда находится в диапазоне от -1 до 1; 0 означает, что классификатор не лучше, чем случайный бросок честной монеты.
A. когда классификатор идеален (FP = FN = 0), значение MCC равно 1
B. когда классификатор всегда неправильно классифицирует (TP = TN = 0), значение MCC равно -1
(2) Он идеально симметричен, все классы включены, и ни один класс не важнее другого
(3) Если вы поменяете местами положительное и отрицательное, вы все равно получите то же значение.

продолжение следует…

Скрининговый тест с высокой чувствительностью, у нас будет много FP. Вот почему, если это тест с высокой чувствительностью, существует риск проведения общего тестирования, поскольку высокий FP вызовет ненужные общественные опасения.