Я создал модель, которая оценивает сегментацию клиентов по кредитным картам, чтобы помочь компании определить свою маркетинговую стратегию. Я использовал алгоритм K-средних со значением K, определяемым оценкой силуэта. Я также использовал PCA для уменьшения размеров и лучшей визуализации.

Источник данных: Набор данных кредитной карты для кластеризации.

Содержание:

  • Деловое понимание
  • Понимание данных
  • Предварительная обработка данных
  • Нормализация данных
  • Уменьшение размеров с помощью PCA
  • Кластеризация
  • Визуализация
  • Рекомендация
  • Деловое понимание

В этом случае необходимо разработать сегментацию клиентов для определения маркетинговой стратегии. Образец набора данных суммирует поведение примерно 9000 активных держателей кредитных карт за последние 6 месяцев. Файл находится на уровне клиента с 18 поведенческими переменными.

Но сначала, что такое сегментация клиентов?

Сегментация является неотъемлемой частью разработки маркетинговых целей и стратегий, определение которых обычно включает либо [1,2]:

(a) анализ того, как продукты должны продаваться или разрабатываться, на основе анализа текущих клиентских сегментов

(б) определение новых сегментов в качестве целей для существующих продуктов или разработки новых продуктов.

Сегментация имеет решающее значение, потому что компания имеет ограниченные ресурсы и должна сосредоточиться на том, как наилучшим образом идентифицировать и обслуживать своих клиентов.

Эффективная сегментация позволяет компании определить, какие группы клиентов им следует попытаться обслужить и как лучше всего позиционировать свои продукты и услуги для каждой группы [3].

  • Понимание данных

Чтобы лучше понять каждую функцию средства данных, вот словарь данных.

  • Предварительная обработка данных

Этот шаг включает в себя импорт необходимых пакетов и набора данных, проверку сводки данных, обработку отсутствующих значений, проверку типов данных и выбор функций.

Небольшой взгляд на данные:

Данные состоят из 8950 строк и 18 столбцов. Вот сводка данных.

Существует много выбросов (посмотрите на максимальное значение), но я не стал их отбрасывать, потому что они могут содержать важную информацию, поэтому я рассматривал выбросы как экстремальные значения.

Проверка недостающих значений:

CREDIT_LIMIT и MINIMUM_PAYMENT содержат некоторые нулевые значения. Я исправил эти недостающие значения, заменив их средствами.

Больше нет нулевых значений. Затем проверка типов данных:

CUST_ID имеет объект типов данных, поэтому я его отбросил.

  • Нормализация данных

Нормализация - это метод, который часто применяется как часть подготовки данных для машинного обучения. Цель нормализации - изменить значения числовых столбцов в наборе данных на общий масштаб, не искажая различия в диапазонах значений. Для машинного обучения каждый набор данных не требует нормализации. Это требуется только тогда, когда функции имеют разные диапазоны.

  • Уменьшение размера с помощью PCA

Я применил анализ главных компонентов (PCA), чтобы преобразовать данные в 2 измерения для визуализации, потому что мы не сможем визуализировать данные в 17 измерениях. PCA преобразует большой набор переменных в меньший, который по-прежнему содержит большую часть информации в большом наборе. Уменьшение количества переменных данных.

  • Кластеризация

Кластеризация - один из наиболее распространенных методов исследовательского анализа данных, используемый для получения интуитивного представления о структуре данных. Его можно определить как задачу идентификации подгрупп в данных, при которой точки данных в одной подгруппе (кластере) очень похожи, а точки данных в разных кластерах сильно различаются.

Здесь я использовал алгоритм K-средних. Алгоритм K-средних - это итеративный алгоритм, который пытается разделить набор данных на K заранее определенных отдельных неперекрывающихся подгрупп (кластеров), где каждая точка данных принадлежит только одной группе. .

Для этого мы должны сначала указать количество кластеров K. Здесь я использовал метод локтя, чтобы указать лучший K. Локоть - очень простой метод, который дает нам графики, подобные форме локтя. И мы можем легко угадать оптимальное количество K по графику.

Однако было трудно найти точку изгиба кривой, поэтому было решено использовать оценку силуэта. Метод силуэта позволяет вычислить коэффициент силуэта и легко найти точное количество K.

Значение коэффициента силуэта находится в диапазоне от -1 до 1. Оценка 1 означает наилучшее значение, означающее, что точка данных очень компактна в пределах кластера, к которому она принадлежит, и далеко от других кластеров . Наихудшее значение -1. Значения около 0 обозначают перекрывающиеся кластеры.

И самый высокий балл по силуэту находится в k = 3. Это означает, что наилучшее количество кластеров в данном случае равно 3. Затем я назначил 3 модели KMeans.

Получив кластеры, я интерпретировал их в визуализации с помощью FacetGrid.

И вот простые результаты:

Кластер 0. Эта группа клиентов указывает на небольшую группу клиентов с малым балансом, мелкими покупателями (небольшими покупками) с самым низким кредитным лимитом.

Кластер 1. Эта группа клиентов указывает на большую группу клиентов со средним балансом, платежеспособных (большие покупки) с наивысшим кредитным лимитом.

Кластер 2. Эта группа клиентов указывает на небольшую группу клиентов, у которых большие остатки и авансы наличными, низкая частота покупок и высокий кредитный лимит. Можно предположить, что этот сегмент клиентов использует свои кредитные карты в качестве ссуды.

  • Визуализация

Наконец, я визуализировал кластеры в виде диаграммы рассеяния.

  • Рекомендация:

Для кластера 0 я рекомендовал серебряную кредитную карту, потому что это самая распространенная карта. Как правило, новый владелец кредитной карты получает серебряную карту и может обновить ее позже. Серебряные карты имеют самый низкий кредитный лимит, который составляет от 4 до 7 миллионов индонезийских рупий. Владелец карты должен иметь ежемесячную зарплату не менее 3 миллионов индонезийских рупий. Преимущество этой карты - не слишком высокий лимит.

Для кластера 1 я рекомендовал золотую кредитную карту. Держатель карты должен иметь регулярный ежемесячный доход от 5 до 10 миллионов индонезийских рупий. Кредитный лимит составляет от 10 миллионов до 40 миллионов индонезийских рупий, в зависимости от банка-эмитента кредитной карты. Преимущество карты этого типа в том, что лимит достаточно большой. Таким образом, это позволяет вам быстрее покупать / владеть дорогими предметами. Вы можете использовать его для погашения крупнобюджетных вещей, таких как мотоциклы или смартфоны. Однако чем выше лимит кредитной карты, тем выше ежегодный сбор, который вы должны платить.

Наконец, для кластера 2 я рекомендовал платиновую кредитную карту с наивысшим уровнем. Кредитные карты Platinum принадлежат только нескольким людям, потому что получить карту непросто из-за строгих процедур. Платиновая кредитная карта имеет высокий лимит от 40 миллионов до 1 миллиарда индонезийских рупий. Владелец карты должен иметь доход не менее 180 миллионов индонезийских рупий в год и иметь хорошую кредитную историю.

Посетите мой гитхаб, чтобы увидеть полную записную книжку.

Использованная литература :

[1] Ансофф, Х. (1957). Стратегии диверсификации. Harvard Business Review, сентябрь-октябрь: 113–124.

[2] Макдональд М. и Данбар И. (2004). Сегментация рынка: как это сделать, как на этом заработать. Лондон: Эльзевьер.

[3] Брюс Куил, Лерзан Аксой и Тимоти Л. Кейнингем (2008) Подходы к сегментации клиентов, Journal of Relationship Marketing, 6: 3–4, 9–39.