Реструктуризация функции вознаграждения для лучшего изучения редких пользователей

Сосредоточение внимания на понимании редких и холодных пользователей, чтобы их можно было обслуживать с интересом.

Контекст

Glance — это платформа доставки контента для мобильных устройств Android, которая специализируется на предоставлении широкого спектра информации на нескольких индийских языках, включая хинди, тамильский, телугу и других, на экране блокировки. Платформа предлагает как долгосрочный контент, такой как новости, спорт, развлечения и другие категории, который остается активным в течение недель или месяцев, так и временный контент, который активен в течение дня или двух. Персонализация контента для новых или редких пользователей на экране блокировки, который является средой без намерений, является сложной задачей для платформы. Приоритетом является эффективное определение того, «что, кому и когда доставлять», с учетом языковых предпочтений и интересов пользователей в определенных категориях.

У нас есть три типа пользователей — плотные, редкие и холодные. В целом, интенсивные пользователи очень активны и регулярно взаимодействуют с несколькими подсказками взгляда. Затем идут редкие пользователи, которые взаимодействуют средним образом. Они не взаимодействуют с платформой так сильно, как плотные пользователи, но взаимодействуют с некоторыми из них. Третий тип — это холодные пользователи, которые взаимодействуют время от времени (например, раз в пару месяцев). Мы не получили много информации об этих пользователях из-за их меньшего количества взаимодействий.

Эта работа в блоге направлена на понимание редких и холодных пользователей, чтобы они могли обслуживать их заинтересованными взглядами и начать больше привлекать. Как только это произойдет, эти пользователи перейдут в режим плотных пользователей. Этот процесс понимания пользователей посредством взаимодействия с различными типами контента и предоставления персонализированного контента, чтобы помочь им закончить обучение, называется исследованием.

Позже он объясняет, как мы определяем новую функцию вознаграждения для нашего разреженного и холодного исследования пользователей, и рассказывает о ее различных компонентах. Эта функция предоставляет дополнительные сигналы для холодных и разреженных пользователей и помогает создавать политики, требуемые моделью. Цель состоит в том, чтобы захватить все больше и больше разреженных и холодных пользовательских сигналов, так как это будет существенно помочь при получении от них обратной связи.

Итак, это наша постановка задачи:

Получить и интерпретировать сигналы обратной связи от активных пользователей довольно просто. Но для редких пользователей доступно не так много явных сигналов, и их нелегко понять. Целью этого эксперимента было определить слабые сигналы и методы сбора этой информации для лучшего изучения редких пользователей, пока они не перейдут на новый уровень (не станут плотными пользователями).

Обратная связь, которую мы получаем, представлена в виде «Нравится»/«Поделиться», продолжительности на пользователя и т. д. Во время реализации модели также возникали серьезные проблемы, такие как определение того, как можно регистрировать разреженные и холодные сигналы; когда захватывать (холодный/разреженный) сигнал, когда пользователь ничего не делает.

Двигаясь дальше, вы узнаете больше об этой награде (функции), о том, чем она отличается от метрики оценки, функции стоимости и ожиданий от каждой из них. После этого объясняются компоненты функции вознаграждения.

Чем вознаграждение отличается от выходных показателей или функции затрат модели?

Метрика оценки. Это способ отслеживания ожидаемого поведения модели. Как только модель находится в системе, и мы обслуживаем ее, преимущества фиксируются в виде показателей оценки.

Например, точность и полнота — это общие показатели оценки, которые могут отслеживать производительность модели. В нашем случае можно рассматривать и бизнес-метрику, т. е. суточную/среднюю продолжительность на одного пользователя.

Функция стоимости. Функция стоимости определяется для модели, для которой модель необходимо оптимизировать. Например, можно построить модель машинного обучения для оптимизации продолжительности работы системы на пользователя, но она начнет рекомендовать много видео.

Оценка вознаграждения/отзывов. Как следует из названия, это отзыв пользователя о получении конкретных рекомендаций, предоставленных моделью. Например, на развернутых моделях есть ли зацепление? Если да, то какой тип участия и сколько?

Мы использовали эту концепцию в нашей модели, чтобы понять предпочтения каждого пользователя для каждой категории. Какое бы вознаграждение ни получил пользователь в каждой категории, он/она будет иметь соответствующую оценку категории пользователя. И для подсчета баллов мы следовали определенной логике/порогам.

С помощью пороговых значений мы рассчитываем положительное и отрицательное значение вовлеченности, соответствующее каждой категории и пользователю. Мы можем определить вовлеченность отдельно, например, какой может быть вовлеченность. Это может быть продолжительность; это может быть СТА; это может быть просто взгляд на это какое-то время, верно?

Текущий поток вознаграждений

На приведенном выше рисунке показан сквозной поток для просмотра и то, как данные вознаграждения проходят в системе. Как только пользователь взаимодействует с любой карточкой взгляда, это событие фиксируется и сохраняется как данные о взаимодействии с пользователем. Оттуда вознаграждения рассчитываются для каждого пользователя на основе определенной логики. Это вознаграждение затем используется для определения предпочтений пользователей.

После того, как персонализированные рекомендации будут сгенерированы с использованием вознаграждений, ожидается, что они снова привлекут внимание и пройдут тот же цикл.

Наш эксперимент: награда за исследование

Теперь, когда цель вознаграждений в нашей системе ясна, мы можем углубиться в ее улучшение. Для этого мы переопределили наше определение очков вознаграждения.

Вознаграждение за исследование должно согласовываться с движением пользователей от разреженных к плотным когортам, что на данный момент сводится к «взаимодействию с пользователем». Другие атрибуты, такие как близость, интуиция, новизна и т. д., — это всего лишь инструменты для улучшения взаимодействия и, следовательно, награда за путь исследования. Определение взаимодействия в основном определяет наше вознаграждение за модели исследования.

Мы предложили разделить награды за взаимодействие на 4 разных компонента, которые представляют разные аспекты вознаграждений за исследования. Различные модели могут работать над оптимизацией этих различных компонентов или их разбавленных версий (как мы делаем с порядковыми вознаграждениями).

Мягкое взаимодействие.До сих пор взаимодействия определялись как жесткие пороговые значения, основанные на общем анализе пользователей. Однако для регистрации очень редких взаимодействий пользователей из холодных и разреженных когорт нам нужна более мягкаяинтерпретация того, что такое «взаимодействия». Мы предлагаем несколько модификаций определения взаимодействия и, следовательно, вознаграждения. К ним относятся, помимо прочего, более мягкие пороговые значения для показов (например, репост, призыв к действию, продолжительность удержания, продолжительность видео и т. д.), сигнал касания влево (переход к предыдущей карточке взгляда как показатель заинтересованности пользователя в конкретных карточках), и т. д.
Программное исследование. Он определяет, обслуживает ли модель различные типы контента. Если он обслуживает различные типы контента после определенного количества просмотров, мы ставим здесь положительную оценку. Это полезно, поскольку начинает вознаграждать пользователей, как только увеличивается разнообразие контента, соответствующего показам.
Жесткое взаимодействие. Предоставляем ли мы релевантный контент пользователю в соответствии с рекомендациями, чтобы он/она могли найти то, что его/ее интересует? такое взаимодействие совпадает с тем, что мы имеем в качестве текущего определения вознаграждения.
Усердное исследование: это похоже на удачу/прозорливость. В его отсутствие трудно ожидать долгосрочных улучшений UX. Если пользователь взаимодействует с разнообразным контентом (компонент интуитивных прозрений), то мы даем более высокое дополнительное вознаграждение модели, говоря, что модель предоставила пользователю разнообразный и релевантный контент.

Мы получили одно значение, используя предыдущее определение вознаграждений для редких и холодных пользователей. Даже если они мало взаимодействуют или не тратят много времени, мы смогли генерировать больше сигналов, используя три других компонента. Для активных пользователей у нас уже есть определенная функция вознаграждения, которая учитывает продолжительность, CTA, вход в Game Center и некоторые другие вещи как часть ее расчета.

Помимо этого, поскольку мы уже знаем, что редкие и холодные пользователи мало взаимодействуют, нам нужно генерировать больше сигналов обратной связи для этих пользователей. Итак, нам нужны более тонкие, более разнообразные типы сигналов, по которым мы можем лучше определить предпочтения пользователя. Это одна из причин разделения этой функции вознаграждения на четыре части.

Мы сформулировали нашу окончательную оценку вознаграждения, объединив эти четыре компонента. Различные типы агрегации создали разные эксперименты. Основываясь на первоначальных результатах, один из этих экспериментов был запущен в производство и по-прежнему обслуживает большую часть холодных и редких пользователей.

Влияние

Мы пересмотрели логику создания пользовательских предпочтений и вознаграждения за них. Итак, мы внесли необходимые изменения, которые переопределяют логику создания пользовательских предпочтений, расчеты которых давали вознаграждение пользователям по каждой категории. В настоящее время это одна из самых эффективных моделей, использующая эту функцию вознаграждения для редких пользователей.

На приведенном выше графике показан процент DAU пользователей в каждой когорте по дням для пользователей, обслуживаемых в рамках этого эксперимента. Все холодные и разреженные пользователи обслуживались с помощью этого эксперимента, а плотные пользователи обслуживались с использованием отдельной модели плотных пользователей. Из графика видно, что происходит движение пользователей из холодных/разреженных когорт в более плотные когорты. Когда люди начинают потреблять больше, они переходят в более высокие когорты.

Уникальность модели вознаграждения

Мы смогли зафиксировать сигналы, которые игнорировались.
Основное исследование — еще один уникальный и важный фактор, потому что в Glance очень мало пользователей. И для этой значительной части пользователей мы успешно зафиксировали множество сигналов.
С точки зрения производительности модель была достаточно быстрой. Модель конечного обслуживания была такой же, как наша для другой стороны, то есть модель MAB.

Подтверждение

Я хотел бы поблагодарить Аркида, Субу и всю команду DS at Glance за обсуждения и сеансы мозгового штурма, благодаря которым эта работа стала возможной.