Дерево решений представляет собой структуру, подобную блок-схеме, в которой каждый внутренний узел представляет «тест» атрибута, каждая ветвь представляет результат теста, а каждый конечный узел представляет собой метку класса (решение, принятое после вычисления всех атрибутов). Пути от корня к листу представляют собой правила классификации.
Преимущество использования дерева решений заключается в том, что его легко интерпретировать и визуализировать. Дерево может быть сгенерировано с использованием нисходящего жадного подхода, при котором на каждом этапе мы выбираем лучший атрибут для разделения данных. Наилучшим атрибутом является тот, который приводит к наибольшему приросту информации, что представляет собой разницу в энтропии до и после разделения.
Алгоритм дерева решений можно использовать как для классификации, так и для регрессии. Для классификации целевая переменная является категориальной, а для регрессии целевая переменная является непрерывной.
Этапы алгоритма дерева решений следующие:
- Вычислите энтропию целевой переменной.
2. Для каждого атрибута рассчитайте прирост информации.
3. Выберите атрибут с наибольшим приростом информации в качестве корневого узла.
4. Разделите данные по выбранному атрибуту и повторите описанные выше шаги для каждой ветви.
5. Остановиться, когда энтропия станет равной 0 или когда больше не останется атрибутов для разделения.
Давайте рассмотрим простой пример, иллюстрирующий алгоритм дерева решений.
Предположим, у нас есть набор данных с двумя функциями: пол и семейное положение. Целевой переменной является то, покупает ли человек автомобиль. Набор данных выглядит следующим образом:
Энтропия целевой переменной Car Purchased составляет 0,811.
Теперь давайте посчитаем прирост информации для каждого атрибута.
- Для пола прирост информации составляет 0,151.
- Для семейного положения прирост информации составляет 0,048.
Поскольку атрибутом с наибольшим информационным приростом является пол, мы разделили набор данных по полу. Результирующий набор данных выглядит следующим образом:
Повторяем шаги выше на каждой ветке.
- На ветви Пол = Мужской энтропия целевой переменной Car Purchased равна 0,562.
- На ветке Пол = Женский энтропия целевой переменной Car Purchased равна 1,0.
Так как на ветке Пол = Мужской энтропия равна 0, мы останавливаемся.
Итоговое дерево решений выглядит так:
- Пол =› Мужской, Автомобиль куплен =› Да
- Пол =› Женский, Автомобиль куплен =› Нет
Алгоритм дерева решений — это мощный инструмент, который можно использовать как для классификации, так и для регрессии. Его легко интерпретировать и визуализировать, и его можно реализовать в нисходящем жадном подходе.