Проверка точности модели в машинном обучении

Прежде чем продолжить, мы надеемся, что вы рассмотрели наши предыдущие статьи:

В этой статье мы собираемся проверить точность модели, чтобы понять, насколько хорошо она может предсказать вероятность развития диабета у человека. Итак, мы собираемся использовать данные тестирования, которые мы собрали в предыдущей статье.

Далее в этой статье мы собираемся:

Оцените модель по данным тестирования.
Интерпретируйте результаты.
Улучшение результатов.

Следовательно, мы начинаем с оценки производительности модели по обучающим данным:

И производительность модели по данным тестирования:

Согласно приведенным выше результатам, необходимо улучшить производительность, и для этого у нас есть следующие варианты:

Настройте текущий алгоритм.
Получите больше данных или улучшите данные.
Улучшите обучение.
Алгоритмы переключения.

На данном этапе нам остается выбрать только последний вариант, то есть переключать алгоритмы. Итак, мы переходим на алгоритм Случайный лес, который:

Ансамблевый алгоритм.
Подходит для нескольких деревьев с подмножествами данных.
Он включает в себя усредненное дерево результатов для повышения производительности и контроля переобучения.

Итак, давайте определим производительность на обучающих данных с помощью алгоритма Случайный лес:

У нас отличная точность с данными обучения с помощью Случайного леса. Теперь давайте проверим тестовые данные:

Это означает, что наша модель слишком хорошо усвоила обучающие данные по сравнению с тестовыми данными, и это называется переобучением.

Итак, мы собираемся переключить другой алгоритм, то есть логистическую регрессию:

Как мы видим, он имеет лучшую точность, чем предыдущие выбранные модели / алгоритмы, и разрыв между точностью как обучающих, так и тестовых данных очень меньше.

Следовательно, это модель, которую мы собираемся принять для прогнозирования, есть ли у человека шанс заболеть диабетом или нет.

Проверка точности модели в машинном обучении

Вопросы по теме