Случайные леса (также известные как леса случайных решений) — это контролируемые алгоритмы машинного обучения, построенные на основе алгоритмов дерева решений. По сути, он растет за счет объединения множества деревьев решений, образующих лес.

Он прогнозирует, собирая среднее значение выходных данных из разных деревьев решений.

Этот алгоритм (или модель) применяется в различных отраслях, включая банковское дело, медицинскую электронную коммерцию и торговлю акциями, для прогнозирования поведения и результатов. Его также можно использовать как для классификации (прогнозирование меток, например, спам или не спам в электронных письмах), так и для регрессии (прогнозирование количества, которое обычно является числовым).

Допущения в модели случайного леса:

Входные данные непрерывны, а целевая переменная дискретна. Входные данные содержат несколько переменных, и каждая переменная имеет только один уровень. Во входных данных нет пропущенных значений. Данные распределяются нормально.

При использовании Random Forest для классификации каждое дерево дает классификацию, называемую «голосованием». Лес выбирает классификацию большинством голосов. При использовании Random Forest для регрессии лес выбирает среднее значение результатов всех деревьев.

Особенности алгоритма случайного леса

  • Это более точно, чем алгоритм дерева решений.
  • Это обеспечивает эффективный способ обработки отсутствующих данных.
  • Он может дать разумный прогноз без настройки гиперпараметров.
  • Это решает проблему переобучения в деревьях решений.
  • В каждом дереве случайного леса подмножество признаков выбирается случайным образом в точке разделения узла.

Преимущества случайного леса

  • Он очень универсален, и его гиперпараметры легко понять.
  • Классификатор не соответствует достаточному количеству деревьев.
  • Он может эффективно обрабатывать большие наборы данных.
  • Он имеет более высокий уровень точности, чем деревья решений.
  • Он проще в использовании и более удобен для начинающих.
  • Он может выполнять как задачи регрессии, так и задачи классификации.

Недостатки случайного леса

  • Для повышения точности требуется больше деревьев.
  • Слишком большое количество деревьев решений может замедлить модель.
  • Невозможно описать отношения внутри данных.
  • Для вычислений требуется больше ресурсов.
  • Он требует больше времени по сравнению с алгоритмом дерева решений.

Приложения

В банковском деле он используется для выявления клиентов, которые с большей вероятностью погасят свой долг вовремя, путем оценки их кредитных рейтингов. Он также может использоваться для обнаружения банковских мошенников. Его также можно использовать для понимания структуры расходов клиента.

В трейдинге алгоритм можно использовать для определения будущего поведения акций.

В здравоохранении он используется для определения правильного сочетания компонентов в медицине и для анализа истории болезни пациента для выявления заболеваний.

Он используется компаниями электронной коммерции и розничной торговли, чтобы определить, какие продукты нравятся клиентам, а какие им могут не нравиться. Он также используется для рекомендации продуктов и прогнозирования удовлетворенности клиентов.

Рекомендации

Раздел

Кузница карьеры

Встроенный