Насколько хорош ваш классификатор?

Мы опишем две метрики, применимые к любому классификатору, дающему прогнозы.

Классификатор предоставляет прогноз p, и он считается положительным, если p превышает пороговое значениеt. В зависимости от того, положительно это или нет, принимается решение, влияющее на реальный мир (например, автоматическое удаление спама).
Мы определяем частоту действий как точность модели выше порогового значенияt.

Как мы сравниваем модели m1 и m2 на основе частоты действий?

Коэффициент действий в TopK: считать только элементы с лучшими k (k = 10, 20, …) оценками как предсказанные положительные для обоих классификаторов. Это приведет к порогу t1 для m1 и t2 для m2. Затем можно рассчитать и измерить показатели действий.
Фиксированный порог (не рекомендуется). Рассмотрите фиксированный порог t и рассчитайте количество действий. Это может привести к ошибочным результатам, поскольку предсказания классификатора могут не следовать одному и тому же распределению.

Оценка Бриера — это надлежащая функция оценки, которая измеряет точность вероятностных прогнозов.

Оценка Брайера — это среднеквадратическая разница между истинными классами и предсказанными вероятностями.
Чем ниже показатель Бриера, тем лучше ваши прогнозы. Показатель Бриера 0 означает идеальную классификацию. Оценка Брайера, равная 1, отражает полную неточность (т. е. кто-то присваивает вероятность 0 событиям, которые происходят, и вероятности 1 событиям, которые не происходят).

Здесь K = количество классов, N = количество примеров, C_ik обозначает реальный класс меток, p_ik обозначает предсказания.

Как мы сравниваем модели m1 и m2 на основе частоты действий?

Оценки Бриера могут быть вычислены при наличии меток и матрицы прогнозов. Оценки Бриера можно сравнивать напрямую.

Мы добавили две общие, но очень надежные метрики для классификаторов.
Вычислите оценку Бриера вместе с другими показателями производительности. Это хороший показатель качества предсказания.

Дополнительная литература: