В этом разделе я расскажу, как я занял 5-е место в таблице лидеров.

Читать Часть-1

Методология

  1. Понимание данных
  2. состязательная проверка
  3. Преобразование данных
  4. Разработка функций
  5. Построение модели машинного обучения
  6. Интерпретируемое машинное обучение

Понимание данных

В этом разделе мы исследуем информацию в наших данных, чтобы определить ее тип данных.

у нас есть 7 категориальных и 11 числовых признаков.

Состязательная проверка

Этот метод упрощает вычисление различий между обучающими и тестовыми данными. По сути, если показатель ROC-AUC составляет около 0,5, это указывает на то, что распределение обучающего и тестового наборов данных одинаково. Это указывает на то, что специалист по данным будет доволен, потому что вероятность того, что таблица лидеров будет избыточной, будет снижена.

Вы можете следить за блокнотом проверки состязательности здесь

Преобразование данных

В этом разделе я объясню, как я очищал данные. Набор данных содержит большое количество категориальных признаков. Порядковые признаки — это те, которые имеют значимое ранжирование, а номинальные — нет.

Порядковые объекты преобразуются с использованием методов кодирования карты.

Номинальные характеристики преобразуются с помощью кодировки этикетки.

Примечание. При преобразовании категорийных данных не существует бесплатного метода.

Разработка функций

В улучшении производительности модели машинного обучения разработка признаков — это и искусство, и наука. К существующим функциям были добавлены 3 новые функции, применяющие кодировку подсчета для функций почтового индекса и годового пробега. создание функции биннинга по характеристикам годового пробега.

Машинное обучение

В этом разделе реализован алгоритм машинного обучения для прогнозирования вероятности целевого признака (РЕЗУЛЬТАТ) с log_loss в качестве метрики оценки. Используемый алгоритм — Catboost, семейство моделей повышения градиента, таких как xgboost и lightgbm.

X = независимые функции

y = зависимая функция (целевая переменная)

где 0 означает, что страховое требование должно быть отклонено, а 1 означает, что страховое требование должно быть принято.

Для создания более обобщенной модели dmachine Learning реализованы 5 методов перекрестной проверки Stratified Kfold, а окончательный прогноз представляет собой среднее значение 5-кратного прогноза.

Оценка потери журнала при локальной перекрестной проверке составляет 0,6810, а оценка в частной таблице лидеров — 0,68076.

Важность функции модели Catboost

Наиболее важными функциями являются тип транспортного средства, опыт вождения, почтовый индекс, идентификатор и сгенерированные функции am_bin.

Интерпретируемое машинное обучение

В этом разделе мы раскрываем модель черного ящика, используя значения Shapely в других целях, чтобы сообщить наши выводы заинтересованным сторонам бизнеса.

Принятие решений

  1. Более высокий уровень водительского стажа указывает на то, что претензия должна быть принята.
  2. Если пол женский, это означает, что претензия принята; когда это мужчина, это означает, что претензия отклонена. (Необходимо устранить гендерную предвзятость в алгоритмах.)
  3. Клиенты с меньшим годовым пробегом должны быть приняты.

Ссылка — Блокнот

Ссылки

  1. https://www.investopedia.com/terms/s/shapley-value.asp#
  2. https://catboost.ai/
  3. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html

Связаться

  1. Линкедин
  2. Твиттер