Прежде чем продолжить, мы надеемся, что вы рассмотрели наши предыдущие статьи:

В этой статье мы собираемся проверить точность модели, чтобы понять, насколько хорошо она может предсказать вероятность развития диабета у человека. Итак, мы собираемся использовать данные тестирования, которые мы собрали в предыдущей статье.

Далее в этой статье мы собираемся:

  • Оцените модель по данным тестирования.
  • Интерпретируйте результаты.
  • Улучшение результатов.

Следовательно, мы начинаем с оценки производительности модели по обучающим данным:

И производительность модели по данным тестирования:

Согласно приведенным выше результатам, необходимо улучшить производительность, и для этого у нас есть следующие варианты:

  • Настройте текущий алгоритм.
  • Получите больше данных или улучшите данные.
  • Улучшите обучение.
  • Алгоритмы переключения.

На данном этапе нам остается выбрать только последний вариант, то есть переключать алгоритмы. Итак, мы переходим на алгоритм Случайный лес, который:

  • Ансамблевый алгоритм.
  • Подходит для нескольких деревьев с подмножествами данных.
  • Он включает в себя усредненное дерево результатов для повышения производительности и контроля переобучения.

Итак, давайте определим производительность на обучающих данных с помощью алгоритма Случайный лес:

У нас отличная точность с данными обучения с помощью Случайного леса. Теперь давайте проверим тестовые данные:

Это означает, что наша модель слишком хорошо усвоила обучающие данные по сравнению с тестовыми данными, и это называется переобучением.

Итак, мы собираемся переключить другой алгоритм, то есть логистическую регрессию:

Как мы видим, он имеет лучшую точность, чем предыдущие выбранные модели / алгоритмы, и разрыв между точностью как обучающих, так и тестовых данных очень меньше.

Следовательно, это модель, которую мы собираемся принять для прогнозирования, есть ли у человека шанс заболеть диабетом или нет.