Наука, стоящая за ансамблевым обучением

Создание нескольких моделей машинного обучения и сравнение их точности может быть утомительным и занимать много времени, если проблема немного сложна. К счастью, у нас есть ансамблевые алгоритмы обучения, которые облегчают эту задачу специалистам по данным. Как следует из названия, алгоритмы ансамблевого обучения обучают группу моделей одному и тому же набору данных и объединяют их прогнозы, чтобы получить более надежный прогноз, менее подверженный ошибкам.

Давайте разберемся в различных стратегиях ансамблевого обучения, которые можно использовать для выбора моделей, которые работают лучше и обеспечивают более высокую точность. Стратегии, которые мы собираемся обсудить в этом посте,

Классификатор голосования
Классификатор упаковки
Повышение

Классификатор голосования

Классификатор голосования обучает несколько моделей машинного обучения на одних и тех же обучающих данных и прогнозирует результат с наибольшим количеством голосов. Например, классификатор дерева решений, логистическая регрессия и K ближайших соседей обучаются на наборе данных, который предсказывает, является ли пол пользователя службы мужским или женским. Если логистическая регрессия и классификатор дерева решений предсказывают 1, а K ближайших соседей предсказывает 0 для заданных входных данных, то 1 будет окончательным прогнозом, поскольку это то, что предсказало большинство.

Бэггинг (агрегация Bootstrap)

Агрегация в пакетах или Bootstrap — это метод ансамбля, в котором одна модель обучается на разных подмножествах обучающего набора данных с заменой. Окончательный прогноз представляет собой совокупность каждого отдельного подмножества. Агрегат работает в среднем в задачах регрессии и голосовании в задачах классификации. Бэггинг уменьшает дисперсию модели и повышает точность. Базовым оценщиком может быть любая модель.

Повышение

Это действительно интересный ансамблевый метод, в котором каждая модель учится на ошибках предыдущей модели и пытается исправить предшественницу. Двумя популярными методами повышения являются Ada Boost и Gradient Boost. Алгоритм машинного обучения по умолчанию, используемый как в Ada Boost, так и в GRadient Boost, — это дерево решений.

1. Повышение Ada или адаптивное повышение

Ada Boost или Adaptive Boosting — это метод повышения, в котором каждое предсказание обращает внимание на ошибочно предсказанное его предшественником и присваивает больший вес экземпляру, который неправильно классифицирует данные.

2. Повышение градиента

Повышение градиента работает, превращая слабых учеников в сильных учеников, минимизируя потери за счет обновления весов модели. Однако в повышении градиента задействован исчерпывающий поиск, поэтому используется метод стохастического повышения градиента, когда случайные подмножества данных предоставляются в качестве входных данных для обучения базового ученика, который представляет собой дерево решений. В Stochastic Gradient Boosting образцы и признаки выбираются без замены, что добавляет дисперсии в ансамбль деревьев.

Заключение

Ансамбльное обучение — отличный способ улучшить предсказания моделей машинного обучения с использованием различных методов с меньшим количеством строк кода и, конечно же, с меньшими затратами времени. В этой статье мы обсудили классификаторы голосования, бэггинг и бустинг. Если у вас остались вопросы, задавайте их в комментариях или делитесь своими отзывами!