Похожие продукты, которые могут вам понравиться

Система рекомендаций, чтобы предлагать похожие товары пользователям на страницах сведений о продукте.

Компания электронной коммерции обратилась к вам с просьбой создать рекомендательную систему, чтобы предложить три элемента на странице сведений о продукте. Их аналитические системы содержат около 30% истории покупок пользователя, и только 20% продуктов имеют историю оценок пользователей. Какой метод вы будете использовать для этого типа проблемы? Каков будет ваш метод оценки? RMSE, Precision, MRR, nDCG или любой другой?

В этой статье мы создадим рекомендательную систему для страницы сведений о продукте, чтобы рекомендовать товары пользователям на основе истории их оценок.

Мы оценим восемь разных моделей, чтобы получить лучшую работающую рекомендательную систему.

Если вы хотите глубже изучить рекомендательные системы, я предлагаю начать с этот курс здесь. Наставники не только учат всем тонкостям алгоритмов, но и объясняют их применение на реальных примерах, что полезно для всех, кто хочет продвинуться в этой области.

Набор данных

Мы будем использовать набор данных Amazonfind Dine Food Review для реализации нашей модели рекомендаций. Вот как выглядит набор данных.

Вы можете найти код ноутбук здесь.

Мы будем использовать только три функции, а именно User Id Product Id и Score`.

Обратите внимание, что некоторые пользователи давали оценки одному и тому же продукту несколько раз.

Мы можем взять среднее значение оценок, чтобы получить по одному баллу на пользователя за элемент.
Примечание. Мы также можем взять последнюю оценку или медиану нескольких оценок.

Вот 5 строк нашего окончательного набора данных.

Набор данных содержит около 74 258 уникальных продуктов и 256 059 пользователей. EDA помогает понять взаимодействие пользователей и оценку, которую они дали продуктам.

ЭДА

60% оценок — пять звезд, а 20% — четыре звезды. Таким образом, 80% оценок были положительными.

Средняя оценка пользователей, красная линия на графике ниже, составляет 4,17. С общим рейтингом, перекошенным влево.

Точно так же средний рейтинг продуктов составляет 4,16.

Большинство пользователей оценили не более двух раз. Очень немногие пользователи оценили продукты более десяти раз. Это вполне нормально в реальной жизни, очень немногие пользователи оценивают несколько элементов.

В отличие от взаимодействия с пользователем, среднее количество оцененных продуктов составляет 4,49. Это хороший знак, поскольку у нас есть больше продуктов с рейтингом, которые мы можем использовать в наших рекомендательных системах.

Если мы посмотрим на распределение количества раз, когда пользователи оценили какой-либо продукт, мы увидим две вещи.
Во-первых, независимо от того, сколько пользователей оценили, средний рейтинг (медиана) выше 4.
Во-вторых, пользователи с более низким рейтингом, от 1 до 20 оценок, имеют больший разброс в своих оценках.

Аналогичная тенденция наблюдается и на уровне продукта. Продукт с меньшим количеством оценок имеет более широкое распространение, то есть они также получили низкие оценки.

Это хорошая находка. Чем больше рейтинг получает продукт, тем выше его рейтинг.

Теперь у нас есть хорошее представление о наборе данных. давайте поработаем над созданием рекомендательной модели.

Гибридный

Несмотря на то, что SVD была нашей лучшей моделью, IBCF с Pearson также имела лучшую производительность и могла бы превзойти SVD, если бы ей пришлось предлагать больше продуктов.

Чтобы еще больше улучшить нашу рекомендательную модель, мы можем объединить обе модели для обучения гибридной системы, которая может использовать возможности обеих.

Поскольку SVD работает лучше, мы придаем ему большее значение, чем IBCF.

Давайте посмотрим на кривую ROC.

Мы видим небольшое улучшение производительности модели. Ниже приведены показатели путаницы для SVD и гибридной модели, которые помогают сравнить.

Последние мысли

Помните, мы подмножили набор данных? Вы знаете, как внедрить рекомендательную систему. Теперь вам нужно обучить модель на всем наборе данных и посмотреть, как она изменит конечный результат.
Повышается ли точность, когда модель обучается на большем наборе данных?

Эта статья призвана помочь вам понять, как вы можете реализовать раздел «продукт, который вам может понравиться» на странице вашего веб-сайта, чтобы помочь вашему читателю предложить похожие товары.

Существуют и другие подходы, такие как рекомендательные системы на основе контента, которые могут помочь вам предлагать товары, похожие на просматриваемые, или метод анализа потребительской корзины, который помогает предлагать товары на страницах корзины. Но вы понимаете, как работает рекомендательная система.

Те же принципы можно использовать для создания персонализированной электронной почты, содержащей продукты, актуальные для каждого человека.

Похожая статья, которая может вам понравиться

Всеобъемлющее руководство по системам рекомендаций на основе элементов
В этом руководстве подробно показано, как работает система рекомендаций на основе элементов и как реализовать ее в реальной работе…towardsdatascience.com

Исчерпывающий список методов оценки рекомендательных систем
В этой статье объясняется ряд методов оценки эффективности рекомендательных систем.towardsdatascience.com

Похожие продукты, которые могут вам понравиться

Система рекомендаций, чтобы предлагать похожие товары пользователям на страницах сведений о продукте.

Набор данных

ЭДА

Рекомендательная система

Алгоритмы

Обучение модели

Гибридный

Последние мысли

Похожая статья, которая может вам понравиться

Похожие продукты, которые могут вам понравиться

Система рекомендаций, чтобы предлагать похожие товары пользователям на страницах сведений о продукте.

Набор данных

ЭДА

Рекомендательная система

Алгоритмы

Обучение модели

Гибридный

Последние мысли

Похожая статья, которая может вам понравиться

Вопросы по теме