Дерево решений — это форма контролируемого обучения, в которой вы даете ему некоторые образцы данных и результирующие классификации, и получается дерево!

Он дает вам блок-схему, которая поможет вам выбрать классификацию для чего-то с машинным обучением.

Так, например, вот зависимая переменная Погода, и на ее основе я решаю, иду ли я играть или нет:

Итак, как вы можете видеть, DT может смотреть на различные атрибуты погоды (такие как влажность, температура, дождь и т. д.) и решать, каковы пороговые значения, прежде чем он примет определенное решение.

Случайные леса:

Одна из проблем с DT заключается в том, что они очень восприимчивы к переобучению (поэтому он может прекрасно работать с данными, на которых вы тренировались, но может не давать правильную классификацию для новых людей, которых он не видел раньше, поскольку мы можем не дать достаточно репрезентативных выборок из люди, у которых можно учиться для обучения), поэтому для борьбы с этим мы можем построить несколько альтернативных DT и позволить им «голосовать» за окончательную классификацию — это называется случайным лесом.

Каждый DT берет случайную подвыборку из наших обучающих данных и строит из нее дерево, и каждое полученное дерево может голосовать за правильный результат. Это помогает нам в переоснащении, а также известно как агрегация начальной загрузки или бэггинг.

Таким образом, в основном в случайном лесу у нас есть несколько деревьев или лес деревьев, каждое из которых использует случайную подвыборку для данных, на которых мы должны обучаться, и каждое дерево может голосовать за окончательный результат, что поможет нам бороться с переоснащением.