Мы опишем две метрики, применимые к любому классификатору, дающему прогнозы.
Показатель для моделей, чьи прогнозы используются с порогом:
- Классификатор предоставляет прогноз p, и он считается положительным, если p превышает пороговое значениеt. В зависимости от того, положительно это или нет, принимается решение, влияющее на реальный мир (например, автоматическое удаление спама).
- Мы определяем частоту действий как точность модели выше порогового значенияt.
Как мы сравниваем модели m1 и m2 на основе частоты действий?
- Коэффициент действий в TopK: считать только элементы с лучшими k (k = 10, 20, …) оценками как предсказанные положительные для обоих классификаторов. Это приведет к порогу t1 для m1 и t2 для m2. Затем можно рассчитать и измерить показатели действий.
- Фиксированный порог (не рекомендуется). Рассмотрите фиксированный порог t и рассчитайте количество действий. Это может привести к ошибочным результатам, поскольку предсказания классификатора могут не следовать одному и тому же распределению.
Метрика для моделей, прогнозы которых используются напрямую:
- Здесь важно качество прогнозов. Введите Оценку Брайера:
Оценка Бриера — это надлежащая функция оценки, которая измеряет точность вероятностных прогнозов.
- Оценка Брайера — это среднеквадратическая разница между истинными классами и предсказанными вероятностями.
- Чем ниже показатель Бриера, тем лучше ваши прогнозы. Показатель Бриера 0 означает идеальную классификацию. Оценка Брайера, равная 1, отражает полную неточность (т. е. кто-то присваивает вероятность 0 событиям, которые происходят, и вероятности 1 событиям, которые не происходят).
- Здесь K = количество классов, N = количество примеров, C_ik обозначает реальный класс меток, p_ik обозначает предсказания.
Как мы сравниваем модели m1 и m2 на основе частоты действий?
- Оценки Бриера могут быть вычислены при наличии меток и матрицы прогнозов. Оценки Бриера можно сравнивать напрямую.
Вывод:
- Мы добавили две общие, но очень надежные метрики для классификаторов.
- Вычислите оценку Бриера вместе с другими показателями производительности. Это хороший показатель качества предсказания.
Дополнительная литература: