Дерево решений — это форма контролируемого обучения, в которой вы даете ему некоторые образцы данных и результирующие классификации, и получается дерево!
Он дает вам блок-схему, которая поможет вам выбрать классификацию для чего-то с машинным обучением.
Так, например, вот зависимая переменная Погода, и на ее основе я решаю, иду ли я играть или нет:
Итак, как вы можете видеть, DT может смотреть на различные атрибуты погоды (такие как влажность, температура, дождь и т. д.) и решать, каковы пороговые значения, прежде чем он примет определенное решение.
Случайные леса:
Одна из проблем с DT заключается в том, что они очень восприимчивы к переобучению (поэтому он может прекрасно работать с данными, на которых вы тренировались, но может не давать правильную классификацию для новых людей, которых он не видел раньше, поскольку мы можем не дать достаточно репрезентативных выборок из люди, у которых можно учиться для обучения), поэтому для борьбы с этим мы можем построить несколько альтернативных DT и позволить им «голосовать» за окончательную классификацию — это называется случайным лесом.
Каждый DT берет случайную подвыборку из наших обучающих данных и строит из нее дерево, и каждое полученное дерево может голосовать за правильный результат. Это помогает нам в переоснащении, а также известно как агрегация начальной загрузки или бэггинг.
Таким образом, в основном в случайном лесу у нас есть несколько деревьев или лес деревьев, каждое из которых использует случайную подвыборку для данных, на которых мы должны обучаться, и каждое дерево может голосовать за окончательный результат, что поможет нам бороться с переоснащением.