Качественный эксперимент — это не только достаточное количество наблюдений, но и данные без шума. Однако часто бывает так, что метрика изначально имеет большую дисперсию. И один из таких примеров — деньги.

Одним из самых популярных методов уменьшения дисперсии является удаление выбросов. Однако, когда дело доходит до денег, выбросы крайне редки, как правило, это пользователи, совершающие редкие и крупные транзакции.

Просто удалять таких пользователей из выборки в пользу уменьшения дисперсии, по меньшей мере, неправильно. Значительный процент наблюдений может быть потерян, а результат будет искажен.

В этой статье мы рассмотрим, как децильный анализ может помочь уменьшить дисперсию и повысить чувствительность показателей.

Децили делят исходное население на 10 равных частей.

Например: второй дециль делит первоначальное население в соотношении 2/10:8/10; девятый дециль делит первоначальное население в соотношении 9/10: 1/10.

Исходная выборка с пользовательскими транзакциями имеет следующие распределение и описательную статистику:

Если обратить внимание на хвост распределения и описательную статистику, сразу заметно, что дисперсия довольно большая.

Наблюдения в каждом дециле имеют меньшую размерность, поскольку они сгруппированы в рамках транзакций определенного размера. Следовательно, дисперсия внутри децилей будет значительно меньше, а метрика станет более чувствительной.

Зная это, мы можем выбрать следующую последовательность действий.

  • Каждой операции мы присваиваем децильный номер в соответствии с тем, какому децилю она соответствует.
  • Мы оцениваем величину отклонения в каждом дециле.
  • Мы проводим A/B-тестирование в каждом дециле и проверяем результаты.

В результате получаем следующее:

Как видите, внутри каждого дециля дисперсия меньше, чем в исходном распределении.

Далее мы можем рассчитать эксперимент в каждом дециле с помощью начальной загрузки и получить значение p, равное пересечению распределений плотности. В этом случае бутстрап не является панацеей, и можно использовать и другие методы проверки, например критерии.

В заключение,

  • Если задача связана с проведением эксперимента с деньгами, то децильный метод весьма эффективен.
  • Важно иметь в виду, что транзакции пользователей могут зависеть от моделей поведения, поэтому таких пользователей следует рассматривать отдельно.
  • Очевидно, что этот метод может столкнуться с трудностями при применении к небольшому количеству данных.
  • Децильный метод не требует много времени и легко поддается автоматизации.
  • Не следует забывать о коррекции множественных сравнений; в противном случае частота ошибок возрастет.