Подход интеллектуального анализа данных к покупательскому поведению потребителей (тематическое исследование)

Автор @besartkuleta / Разработчик программного обеспечения и энтузиаст данных в ABC TECH Group

Когда дело доходит до Nutella, даже если мы считаем калории, мы все закрываем глаза! - это не странно, правда, я имею в виду, кто бы не стал ?! - но что странно, так это способность Nutella влиять на продажу соленого продукта. ЭТО МЕНЯ УДИВИЛСЯ!

Прежде чем я расскажу вам, на какой продукт повлияла Nutella, позвольте мне рассказать вам одну историю.

ИСТОРИЯ

Пару лет назад в Америке супермаркет под названием Osco (Джевел Оско) обнаружил очень странное покупательское поведение своих покупателей. Они обнаружили, что люди, которые покупали пиво, также покупали подгузники! Да, это меня тоже застало врасплох!
Я имею в виду, какие вообще есть пиво и подгузники (если только вы не пьяны вслепую).
Они обнаружили этот шаблон покупки, проверяя данные транзакций карты лояльности, и обнаружили, что люди обычно покупают эти товары в пятницу после 17:00; после того, как они покинут офис.
Вот корреляция: пятница известна тем, что гуляет, но, поскольку у них дома есть дети, они не могут выходить на улицу, поэтому они предпочитают покупать пиво и оставаться дома.

Можно было бы ожидать, что магазин поставил пиво и подгузники близко друг к другу, чтобы их продажи увеличились, что не соответствует действительности! - они никогда этого не делали. Но то, что обычно делают крупные компании (такие как Walmart, Osco, Coop, LIDL и другие), - это они наблюдают за поведением своих клиентов и устраивают свой магазин таким образом, чтобы они подсознательно покупали больше.

СЕЙЧАС, ВЕРНУТЬСЯ В NUTELLA!

Поскольку все культуры индивидуальны, я хотел посмотреть, какие закономерности мы получили бы, если бы я мог провести аналогичный анализ для некоторых из крупнейших супермаркетов в моем городе. После нескольких соглашений о неразглашении информации я наконец получил данные из одного из крупнейших супермаркетов Косово.

Это все здорово, но были проблемы! - некоторые записи были недействительными, и примерно для 8% из них отсутствовали значения ключевых атрибутов. ЧТО ДЕЛАТЬ! - хм, посмотрим, время исследования!

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ

Качество данных определяет качество результатов, поэтому для того, чтобы эти данные были полезными, нам пришлось их предварительно обработать. Предварительная обработка данных - один из наиболее важных этапов в процессе «обнаружения знаний в данных».

Во-первых, нам нужно было проверить, имеет ли отсутствие данных закономерность, например, когда люди отказываются сообщать свой возраст или свою зарплату.

В принципе, данные могут быть упущены тремя способами.

· Отсутствует совершенно случайно (MCAR)

· Случайно пропавшие без вести (MAR)

· Отсутствует не случайно (MNAR)

Я попытался классифицировать другие полные данные с использованием этих алгоритмов: KNN (K-Nearest Neighbours), Random Forest и Naïve Bayes.

Мы разделили данные, используя технику 70–20–10, 70% для обучения, 20% для тестирования и 10% для оценки, и результат был очень разочаровывающим, поскольку алгоритмы классифицировали большинство из них неправильно.

Итак, после некоторых дополнительных исследований, я решил вменять «исключение случая» по двум причинам:

1. Количество записей уменьшено на 8%, так что осталось немного по сравнению с 92%.

2. Я хочу быть уверенным, что моя модель не предвзята для применения алгоритма.

АССОЦИАЦИЯ WHAAAT?

После предварительной обработки пришлось сделать одну мелочь. Мне пришлось преобразовать данные, чтобы они подходили для алгоритма

Поскольку все настроено, я применил технику под названием «Association Rule Mining».

ARM является одним из наиболее часто используемых методов интеллектуального анализа данных.

Обязанность ARM - создавать правила или шаблоны - находить интересные взаимосвязи в огромных наборах данных. Эти отношения называются правилами и в основном обнаруживаются с использованием только этих трех математических формул: поддержки, уверенности и подъема.

· Поддержка: сообщает, какова вероятность того, что X и Y сосуществуют в одной транзакции.

· Уверенность: показывает, какова вероятность того, что в транзакции, имеющей X, будет также Y и

· Рост: поддержка, разделенная на уверенность

Используя этот метод, мы можем определить наиболее частые товары, которые покупают вместе наши покупатели.

Существует множество алгоритмов, связанных с майнингом ассоциативных правил, но их основа и самая простая для понимания - APRIORI.

АЛГОРИТМ

APRIORI утверждает, что если набор элементов встречается часто, то все его подмножества должны быть частыми, следовательно, если набор элементов не является частым, все его надмножества не могут быть частыми. Поэтому, чтобы уменьшить пространство поиска, он использует метод, который называется «обрезка на основе поддержки».

РЕЗУЛЬТАТЫ, ДОСТИЖЕНИЯ

Было сгенерировано много правил. Некоторые из них были неожиданными, особенно тот, который связан с Nutella.

Вот некоторые:

А помните, с чего мы начали ?! Те, кто покупал сладкую и вкусную Nutella, почти наверняка покупали воздушные, арахисовые и соленые закуски!

ЗАЯВЛЕНИЕ

Я лично считаю, что все, что мы делаем, определяет нас: то, как мы едим, как мы спим, как мы просыпаемся, как мы говорим, и все другие бесчисленные вещи, которые мы делаем ежедневно. Это то, что делает меня МЕНЯ и ВАС!

Экосистема маркетинга более сложна, чем когда-либо, и практически невозможно управлять ею, опираясь на интуицию. Способность продавца увеличивать продажи напрямую связана со способностью определять покупательское поведение потенциального клиента (читай покупателя).

Основываясь на моих выводах, эти результаты могут быть чрезвычайно полезны в следующих областях:

1. Ценовая стратегия

2. Размещение продукта и внутренний дизайн магазина

3. Выявление самых горячих точек в магазине.

4. Определение предметов, которые влияют на продажу других предметов (например, в нашем случае, Nutella).

5. Выявление тенденций

ЖДАТЬ! - ЕСТЬ БОЛЬШЕ

Все больше и больше организаций открывают способы использования анализа правил ассоциаций, чтобы получить полезную информацию об ассоциациях и скрытых отношениях, которые не очевидны невооруженным глазом.

Несмотря на свою популярность в качестве вычислительной техники розничных продавцов, Association Rule Mining применима во многих других областях с растущим использованием.

Например:

· FinTech. Согласно данным Financial Regulation News, банковский сектор потерял 2,2 миллиарда долларов в результате мошенничества в 2016 году, 58% из которых были связаны с мошенничеством с дебетовыми картами. Хорошо то, что теперь все больше и больше компаний используют Association Rule Mining для более точного обнаружения и выявления подозрительных транзакций в режиме реального времени и с меньшим количеством ложных отклонений. Они используют такие методы машинного обучения, чтобы автоматически (без руководства человека-аналитика) выявлять необычные закономерности в наборах данных, которые могут быть характеристиками мошенничества. Сообщение об этом в блоге, скоро будет…

· Производство - дизайн продукта, прогнозирование выхода продукта из строя.

· Фармацевтическая промышленность - выявление взаимосвязей между диагнозами, назначенными разным группам пациентов.

· Криминология - обнаружение одновременного совершения преступлений среди разных культур, полов, возрастных групп, а также прогнозирование потенциально следующего преступления на основе предыдущих преступлений.

ПОСЛЕДНИЕ МЫСЛИ

Анализ поведения потребителей - один из ключевых методов, используемых для выявления связей между данными. В этой статье я описал свое путешествие в этом конкретном случае, поэтому, если вам он понравился и вы хотите увидеть больше, вы можете найти меня по адресу:

Https://www.linkedin.com/in/besartkuleta/
https://www.facebook.com/besartkuleta
https://www.instagram.com/besart. кулета /
https://twitter.com/besartkuleta

P.S Поделитесь этим со своими друзьями, им это понравится; Я уверен: D

ССЫЛКИ:

Пратибха Мандав, Мегха Мане, профессор Шарада Патил (2013 г.), «Интеллектуальный анализ данных с использованием правила ассоциации, основанного на алгоритме APRIORI и улучшенном подходе с иллюстрацией», Международный журнал последних тенденций в области инженерии и технологий, Vol. 3 выпуск 2, ISSN: 2278–621X.

Ибрагим Дж. Г., Чен М. Х., LipsitzSR, HerringAH (2005) Методы недостающих данных для обобщенных линейных моделей. Журнал Американской статистической ассоциации 100: 332–346.

Пятецкий-Шапиро, Григорий (1991), Открытие, анализ и представление строгих правил, в Пятецкий-Шапиро, Григорий; и Фроули, Уильям Дж .; ред., «Обнаружение знаний в базах данных», AAAI / MIT Press, Кембридж, Массачусетс

https://financialregnews.com/banking-industry-suffered-2-2-billion-fraud-losses-2016/



Следуйте за ABC TECH Group:

Сайт: www.abc-techgroup.com
LinkedIn: www.linkedin.com/company/abc-techgroup
Facebook: www.facebook.com/ABCtech2017
Twitter : Https://twitter.com/ABCTECH_Group