Набор данных

В этом проекте набор данных online_shopper_intention, содержащих данные о поведении пользователей на платформе торговой площадки за 12 месяцев, будет использоваться для оценки эффективности и создания маркетинговой стратегии, которая может положительно повлиять на платформу. Эти данные отражают поведение клиентов, а также их путь от перехода на веб-сайт до конверсии и получения дохода.

На упомянутых выше веб-страницах генерировалась и собиралась информация о посещении пользователем для оценки. Всего имеется 12 330 данных без пропущенных данных, но около 1% данных дублируются. После очистки общее количество данных, которые мы можем исследовать, составило 12 205 с характеристиками, указанными в таблице ниже.

Функция данных

Кластеризация K-средних

Удаление избыточных данных

Этот проект и исследование здесь должны сосредоточиться на поведении пользователя на веб-сайте, есть некоторые данные, которые можно удалить, чтобы оптимизировать реализацию ML. Удаление данных выполняется для данных, связанных с демографией пользователей (данные, связанные с пользователями), поскольку мы хотим сосредоточиться только на поведении. Другие данные, такие как административные, информационные и связанные с продуктом, также удаляются. Это связано с тем, что природа PageValues ​​является функцией этих трех данных.

Кодировка

Как показано выше, в наборе данных есть данные str и bool. Кодирование применяется для облегчения процесса машинного обучения и облегчения процесса понимания результата.

Идентификация значения K

На этом этапе мы будем использовать как идентификацию K-средних (метод локтя), так и силуэт.

Основываясь на приведенном выше результате, колено находится на значении K = 5 в точке разрыва перед (оценочной) прямой линией. Помимо этого, в качестве сравнения также было проведено тестирование с силуэтом.

Для силуэта определенное значение K равно 10 (в самой высокой точке). Поскольку оба подхода дают разные результаты, мы выберем K=5, так как он обеспечивает меньшее количество кластеров.

Результат и интерпретация

Средняя ценность поведения пользователя на рынке

Дополнительное примечание: данные о доходах изначально вводятся как логические данные, но с характером расчета среднего значения данные, относящиеся к доходу выше, представляют вероятность получения дохода.

Кластер 0

Поведение: Наименее лояльный клиент с самой низкой продолжительностью пребывания и посещает веб-страницу только по особым случаям и в выходные дни. Высокое среднее значение VisitorType свидетельствует о том, что эти пользователи возвращаются. С точки зрения дохода, эта группа также довольно низкая с высоким ExitRates.

Предлагаемый подход: поскольку характер поведения упоминается в этом кластере, пользователи уже знакомы с платформой. Таким образом, предлагаемый подход для этой группы состоит в том, чтобы увеличить присутствие бренда, чтобы платформа могла быть в центре их внимания, предоставляя рекламные предложения в течение обычного дня.

Этот подход направлен на то, чтобы пользователь регулярно использовал платформу.

Кластер 1

Поведение: исходя из вероятности получения дохода и появления особых дней в кластере, существует сходство между этим кластером и кластером 0. Тем не менее, исходя из увеличения количества посещенных страниц, а также продолжительности, этот кластер имеет поведение более высокого качества по сравнению с кластером 0.

Предлагаемый подход: на основе результата качества поведения было бы лучше иметь специальное рекламное предложение, основанное на наиболее привлекательной категории продуктов.

Кластер 2 и 3

Поведение: это одни из самых качественных поведений среди кластеров с аналогичной вероятностью получения дохода. Как и ожидалось, более высокое качество поведения ведет к большему потенциалу получения дохода. Одной из отличительных черт, разделяющих эти два кластера, является наличие выходных. Это означает, что кластер 2, скорее всего, будет занят офисными работниками с 9 до 5, поэтому в выходные дни будет много посетителей.

Предлагаемый подход: на основе поведения, которое показывает, что пользователь уже является обычным (по своей природе они являются постоянными клиентами), можно реализовать баллы лояльности, чтобы повысить конкурентоспособность пользователя в достижении более высокого уровня за счет взаимодействия с платформой.

Кластер 4

Поведение: По качеству поведения можно легко сделать вывод, что эта группа даже лучше, чем кластеры 2 и 3. Отличительной чертой является то, что этот кластер состоит из новых пользователей. Это означает, что да, они обеспечивают наибольшую вероятность получения дохода. Тем не менее, поскольку это их первая покупка на платформе, невозможно определить их лояльность к платформе. Возможно, этот кластер посещает рынок только в рамках определенной рекламной кампании, которая применяется только для новых пользователей, и так далее.

Предлагаемый подход: Поскольку лояльность пользователя неубедительна, самый простой подход — применить тот же подход, что и для кластера 0 или 1. Поскольку это будет постепенно увеличивать воздействие платформы на жизнь пользователя без значительных усилий, поскольку ресурсы лучше всего использовать для группа 2 и 3.

Не стесняйтесь проверять мое портфолио по науке о данных здесь.