В этой истории мы узнаем о дереве решений, которое является основой для многих других моделей машинного обучения. Давайте начнем с ответов на некоторые вопросы, которые возникают у нас в голове.

Самый первый вопрос после произнесения слова «дерево решений» будет: «Что такое дерево решений?». Ответ на этот вопрос будет: «Дерево решений – это не что иное, как структура, подобная блок-схеме, которая помогает вам принимать решения на основе об особенностях и характеристиках данных. Рассмотрим пример классификации фруктов. Каковы будут характеристики фруктов. Особенностями плодов будут форма, размер, цвет и т. д. .

Деревья решений используются для решения более сложных задач. Они полезны, поскольку разбивают более сложные проблемы на более мелкие и простые вопросы. В случае прогнозирования, понравится ли людям фильм или нет, следует учитывать такие характеристики, как возраст, пол и т. д. Следовательно, деревья решений помогают нам принимать решения и прогнозы на основе функций.

Тогда мы могли бы подумать: «Где мы можем применить эти деревья решений? Либо числовые переменные, либо категориальные переменные?Самая большая гибкость заключается в том, что деревья решений можно применять как к числовым, так и к категориальным переменным. В случае численных задач цель состоит в том, чтобы предсказать числовую переменную. Примеры, такие как прогнозирование цены дома, оценка температуры и т. д., . В случае категориальных проблем цель состоит в том, чтобы отнести результат к определенному классу или категории. Такие примеры, как классификация электронных писем как спама или нет, будет ли клиент уходить или нет, класс цветов ириса и т. д. Следовательно, их можно применять как к числовым, так и к категориальным переменным. В дополнение к этому дерево решений может обрабатывать пропущенные значения, выбросы, а также проблемы классификации нескольких классов.

Хорошо, «Есть ли у этих деревьев решений какие-нибудь другие названия?». О да! Другое название дерева решений — CART — деревья классификации и регрессии, которые могут решать проблемы как классификации, так и регрессии.

Интересно, правда! Самое интересное то, что дерево решений также является основой некоторых алгоритмов машинного обучения. Такие алгоритмы, как Random Forest, XGBoost, AdaBoost (адаптивное повышение), Gradient Boosting, LightGBM, CatBoost (категорическое повышение), работают на основе дерева решений.

Давайте углубимся в вопрос «Как на самом деле работает дерево решений?».

  1. Начните дерево с корневого узла S, который содержит полный набор данных.
  2. Определите лучшие атрибуты или функции в наборе данных, используя меры выбора атрибутов (ASM).
  3. Разделите корневой узел S на подмножества, которые содержат возможные значения лучших атрибутов.
  4. Сгенерируйте узлы решений, содержащие лучшие функции.
  5. Рекурсивно выполните два вышеуказанных шага и продолжайте процесс до тех пор, пока мы не сможем разделить узел дальше.

Работа кажется интересной, правда! Хорошо, но «Что такое меры выбора атрибутов?» Меры выбора атрибутов – это не что иное, как процесс или шаги по выбору лучших атрибутов. Мерами выбора атрибутов являются прирост информации и индекс Джини.

Прирост информации — рассчитывает, сколько информации о классе предоставляет нам функция. Только на основе этого значения мы можем разделить узлы в дереве решений. Выбирается разделение, которое максимизирует получение информации.

Энтропия — это мера примеси или беспорядка в наборе примеров. Он используется для количественной оценки случайности значения целевого атрибута. Энтропия будет минимизирована, если все примеры в классе принадлежат одному и тому же классу. Энтропию также называют примесью Джини.

Индекс Джини. Он аналогичен энтропии: он измеряет загрязненность набора примеров путем расчета вероятности того, что случайно выбранный пример будет неправильно классифицирован. Но так быстрее вычисляется. Он также будет минимизирован, если все примеры в узле принадлежат одному классу.

Коэффициент усиления. Коэффициент усиления — это вариант прироста информации, который учитывает внутреннюю информацию атрибута, который может обрабатывать атрибуты со многими значениями. Это помогает избежать предвзятости в отношении атрибутов с большим количеством значений. Формула коэффициента усиления: Прирост информации / разделение информации.

Это здорово, ребята! Мы изучили основы дерева решений, которое является основой многих других концепций машинного обучения. В будущем мы узнаем об этом подробнее, а до тех пор продолжайте учиться! Спасибо за прочтение :) Увидимся в следующей истории…