Что такое Бэггинг?

Пакетирование агрегации Bootstrap было официально представлено Лео Брейманом в 1996 году. Пакетирование — это метод ансамблевого обучения, который направлен на уменьшение ошибок обучения путем реализации набора однородных алгоритмов машинного обучения. Ключевая идея пакета состоит в том, чтобы использовать несколько студентов колледжа, обученных отдельно, со случайной выборкой из обучающей выборки, которая может генерировать более надежную и точную модель с использованием голосового или среднего метода.

Двумя наиболее важными компонентами метода бэггинга являются случайная выборка с начальной загрузкой и набор однородных алгоритмов машинного обучения (обучение файлов). Процесс упаковки прост для понимания, сначала он берет «n» подмножеств обучающей выборки, затем эти подмножества используются для обучения «n» однотипных учеников начальной школы. Для предсказания каждого из «n» учеников в тестируемой выборке кормили, а результат каждого ученика усредняли (в случае изменения) или голосовали (в случае классификации).

Управляемый курс машинного обучения позволит вам усовершенствовать свои знания и навыки.

Архитектор мешков

Важно отметить, что количество подмножеств, а также количество объектов в подмножестве определяется характером вашей проблемы ML, аналогично типу алгоритма ML, который следует использовать. Кроме того, Лео Брейман описывает в своей статье, что он заметил, что для задач классификации требуется больше подмножеств по сравнению с задачами регрессии.

Для реализации мешков sci-kit-learn предоставляет функцию, которая упрощает эту задачу. Для стандартной реализации нам нужно указать только некоторые параметры, такие как базовый уровень, количество оценок и максимальное количество выборок на подмножество.

В предыдущем фрагменте кода была создана базовая модель мешков для известных данных о раке молочной железы. В то время как основной студент реализовал дерево решений, 5 подмножеств были созданы и случайным образом заменены из обучающего набора (для обучения 5 моделей дерева решений). Количество объектов на подмножество равно 50. Выполнив его, мы получим:

Счет поезда: 0,9583568075117371

Результат теста: 0,941048951048951

Одним из основных преимуществ бэггинга является то, что его можно реализовать пропорционально, так как между оценками нет достоверности. Для небольших наборов данных достаточно нескольких оценок (как в приведенном выше примере), но для больших наборов данных могут потребоваться дополнительные оценки.

Известные институты теперь включают онлайн-курс по машинному обучению в список своих курсов.

Что такое бустинг?

Алгоритм повышения — это метод ансамблевого обучения, который, как и бэггинг, использует набор студентов колледжа для повышения надежности и эффективности модели машинного обучения. Идея развивающейся архитектуры состоит в том, чтобы генерировать последовательные предположения, в которых каждое предположение стремится исправить или исправить ошибки, которые произошли ранее.

Чтобы лучше понять различия между некоторыми методами улучшения в управлении данными, давайте посмотрим, как работают AdaBoost и Gradient Boosting, два наиболее распространенных варианта методов улучшения.

Мы будем использовать технику дерева решений в нашей повседневной жизни для принятия решений. Организации используют эти контролируемые методы машинного обучения, такие как деревья решений, для принятия более эффективных решений и получения большей прибыли и прибыли. Ниже приведены два метода, которые используются для создания дерева решений. пакет

Очистка используется, когда наша цель — уменьшить разброс дерева решений. Вот концепция создания различных подмножеств данных обучающего зонда, которые выбираются случайным образом с заменой. Теперь каждое подмножество сбора данных используется для подготовки своих деревьев решений, поэтому у нас есть группа разных моделей. Чаще всего используются предположения из нескольких источников, что сильнее, чем одно дерево решений.

Random Forest является расширением пакета. Прогнозирование любого подмножества данных требует дополнительного шага. Это также позволяет случайный выбор элементов вместо использования всех элементов для улучшения деревьев. Когда у нас много случайных деревьев, это называется Random Forest.

Это следующие шаги, предпринятые для реализации случайного леса:

Рассмотрим наблюдения X функций Y обучающего набора данных. Во-первых, случайным образом была выбрана модель из набора данных для обучения замещению. Дерево превратилось в самое большое.

Введенные шаги повторяются, и прогноз строится на основе сбора прогнозов из нескольких деревьев.

Преимущества использования метода Random Forest:

Он очень хорошо обрабатывает файл данных более высокого размера.

Управляет потерянным объемом и поддерживает качество данных.

Недостатки использования метода Random Forest:

Поскольку окончательный прогноз зависит от значимости прогнозов из подмножества деревьев, он не дает точного значения для регрессионной модели. Увеличение:

Улучшение — это еще один способ для файла создать коллекцию прогнозов. Другими словами, мы адаптируем последовательные деревья, в основном случайные выборки, и на каждом этапе цель состоит в том, чтобы исправить чистую ошибку предыдущих деревьев.

Если данный вход неправильно классифицируется теорией, то вес увеличивается, поэтому будущая гипотеза классифицирует его относительно хорошо, объединяя весь набор, чтобы в конечном итоге превратить более слабых студентов в лучшие модели.

Gradient Boosting — это расширение метода аугментации.

Повышение градиента = Градиентный спуск + Повышение

Он использует алгоритм градиентного убывания, который может оптимизировать любую потерю другой функции. Группа деревьев создавалась индивидуально, а отдельные деревья постепенно суммировались. Следующее дерево попытается восстановить потерю (это разница между фактическим и ожидаемым значениями).

ПРЕИМУЩЕСТВА ИСПОЛЬЗОВАНИЯ ГРАДИЕНТНЫХ МЕТОДОВ УСИЛЕНИЯ:

· Он поддерживает различные функции с потерями.

· Это хорошо с взаимодействиями.

НЕДОСТАТКИ ИСПОЛЬЗОВАНИЯ МЕТОДА ГРАДИЕНТНОГО УСИЛЕНИЯ:

· Это требует тщательной настройки различных гиперпараметров.

Онлайн-курс по науке о данных даст вам больше информации по этой теме.