Прежде чем продолжить, мы надеемся, что вы рассмотрели наши предыдущие статьи:
- Начиная с машинного обучения.
- Подготовка обучающих данных в машинном обучении.
- Выбор алгоритма обработки данных обучения.
- Обучение модели машинному обучению.
В этой статье мы собираемся проверить точность модели, чтобы понять, насколько хорошо она может предсказать вероятность развития диабета у человека. Итак, мы собираемся использовать данные тестирования, которые мы собрали в предыдущей статье.
Далее в этой статье мы собираемся:
- Оцените модель по данным тестирования.
- Интерпретируйте результаты.
- Улучшение результатов.
Следовательно, мы начинаем с оценки производительности модели по обучающим данным:
И производительность модели по данным тестирования:
Согласно приведенным выше результатам, необходимо улучшить производительность, и для этого у нас есть следующие варианты:
- Настройте текущий алгоритм.
- Получите больше данных или улучшите данные.
- Улучшите обучение.
- Алгоритмы переключения.
На данном этапе нам остается выбрать только последний вариант, то есть переключать алгоритмы. Итак, мы переходим на алгоритм Случайный лес, который:
- Ансамблевый алгоритм.
- Подходит для нескольких деревьев с подмножествами данных.
- Он включает в себя усредненное дерево результатов для повышения производительности и контроля переобучения.
Итак, давайте определим производительность на обучающих данных с помощью алгоритма Случайный лес:
У нас отличная точность с данными обучения с помощью Случайного леса. Теперь давайте проверим тестовые данные:
Это означает, что наша модель слишком хорошо усвоила обучающие данные по сравнению с тестовыми данными, и это называется переобучением.
Итак, мы собираемся переключить другой алгоритм, то есть логистическую регрессию:
Как мы видим, он имеет лучшую точность, чем предыдущие выбранные модели / алгоритмы, и разрыв между точностью как обучающих, так и тестовых данных очень меньше.
Следовательно, это модель, которую мы собираемся принять для прогнозирования, есть ли у человека шанс заболеть диабетом или нет.