Дерево решений представляет собой структуру, подобную блок-схеме, в которой каждый внутренний узел представляет «тест» атрибута, каждая ветвь представляет результат теста, а каждый конечный узел представляет собой метку класса (решение, принятое после вычисления всех атрибутов). Пути от корня к листу представляют собой правила классификации.

Преимущество использования дерева решений заключается в том, что его легко интерпретировать и визуализировать. Дерево может быть сгенерировано с использованием нисходящего жадного подхода, при котором на каждом этапе мы выбираем лучший атрибут для разделения данных. Наилучшим атрибутом является тот, который приводит к наибольшему приросту информации, что представляет собой разницу в энтропии до и после разделения.

Алгоритм дерева решений можно использовать как для классификации, так и для регрессии. Для классификации целевая переменная является категориальной, а для регрессии целевая переменная является непрерывной.

Этапы алгоритма дерева решений следующие:

  1. Вычислите энтропию целевой переменной.

2. Для каждого атрибута рассчитайте прирост информации.

3. Выберите атрибут с наибольшим приростом информации в качестве корневого узла.

4. Разделите данные по выбранному атрибуту и ​​повторите описанные выше шаги для каждой ветви.

5. Остановиться, когда энтропия станет равной 0 или когда больше не останется атрибутов для разделения.

Давайте рассмотрим простой пример, иллюстрирующий алгоритм дерева решений.

Предположим, у нас есть набор данных с двумя функциями: пол и семейное положение. Целевой переменной является то, покупает ли человек автомобиль. Набор данных выглядит следующим образом:

Энтропия целевой переменной Car Purchased составляет 0,811.

Теперь давайте посчитаем прирост информации для каждого атрибута.

  • Для пола прирост информации составляет 0,151.
  • Для семейного положения прирост информации составляет 0,048.

Поскольку атрибутом с наибольшим информационным приростом является пол, мы разделили набор данных по полу. Результирующий набор данных выглядит следующим образом:

Повторяем шаги выше на каждой ветке.

  • На ветви Пол = Мужской энтропия целевой переменной Car Purchased равна 0,562.
  • На ветке Пол = Женский энтропия целевой переменной Car Purchased равна 1,0.

Так как на ветке Пол = Мужской энтропия равна 0, мы останавливаемся.

Итоговое дерево решений выглядит так:

  • Пол =› Мужской, Автомобиль куплен =› Да
  • Пол =› Женский, Автомобиль куплен =› Нет

Алгоритм дерева решений — это мощный инструмент, который можно использовать как для классификации, так и для регрессии. Его легко интерпретировать и визуализировать, и его можно реализовать в нисходящем жадном подходе.