Современные основы данных, которые вам нужны, чтобы преуспеть в роли управления цифровыми продуктами

Эта статья является продолжением статьи Данные для продакт-менеджеров (часть 1/2). Мы объяснили, как менеджеры по продуктам используют данные, обнаруживая полезную информацию и разрабатывая продукты данных для создания ценности для бизнеса. Здесь мы сосредоточимся на продуктах машинного обучения и предоставим заключительные заметки с советами и выводами, а также ссылки для дальнейшего чтения.

3 — Продукты машинного обучения

Два этапа интеграции

Продукты машинного обучения объединяют 2 этапа моделирования и активации.

Моделирование. На первом этапе мы моделируем доступные данные с помощью алгоритма для предоставления прогнозов или рекомендаций. Например, в электронной коммерции это может быть алгоритм, рекомендующий статьи, которые пользователь может купить, а в сфере умного города это может быть алгоритм, предсказывающий спрос на велосипеды на станции велопроката. Мы измеряем производительность модели с помощью соответствующих показателей машинного обучения, чтобы оценить, хороши ли прогнозы или уместны ли рекомендации. Общие показатели включают в себя:

  • Точность: процент правильных прогнозов среди прогнозов в классификации.
  • Точность: процент релевантных экземпляров, извлеченных среди экземпляров, извлеченных при классификации и поиске информации.
  • Отзыв: процент релевантных экземпляров, извлеченных среди релевантных экземпляров при классификации и поиске информации.
  • F-оценка: объединяет точность и полноту в качестве их среднего гармонического значения (также называемого F-оценкой).

  • Средняя абсолютная ошибка: средняя ошибка между N прогнозируемыми значениями ŷᵢ и фактическими значениями yᵢ в регрессии (также называемой средней абсолютное отклонение)

  • Среднеквадратическая ошибка: средняя квадратичная ошибка между N предсказанными значениями ŷᵢ и фактическими значениями yᵢ в регрессии (или квадратный корень из него для среднеквадратичной ошибки)

Активация. На втором этапе мы активируем прогнозы или рекомендации модели для пользователей в специальном интерфейсе, чтобы они могли действовать. Например, в электронной коммерции мы могли бы отображать рекомендуемые статьи на веб-сайте магазина в карусели в середине главной страницы или под просматриваемым продуктом на странице сведений о продукте. В области умного города мы могли бы отображать прогнозируемое количество оставшихся велосипедов на соответствующих станциях на карте через мобильное приложение. Затем мы будем измерять эффективность с помощью показателей продукта и бизнеса, таких как добавление в корзину или коэффициент конверсии, а также количество активных пользователей в месяц. Эта общая производительность зависит как от производительности модели, так и от релевантности активации.

2 этапа неразрывно связаны.

С одной стороны, пользовательский интерфейс для активации зависит от производительности моделирования. В контексте автономных транспортных средств, например, ранние алгоритмы позволяли только самостоятельную парковку, затем предлагалось полуавтоматическое вождение, где все еще требовалось ручное вмешательство, а позже эволюционировали в сторону полностью автоматизированного вождения. В электронной коммерции для рекомендации совместимых продуктов часто требуется участие человека, чтобы предотвратить недопустимые ошибки (например, продажу мобильного телефона с несовместимым чехлом).

С другой стороны, данные активации в реальной жизни можно использовать в качестве обратной связи для оценки алгоритмов и повышения эффективности моделирования. Например, мы могли бы проверить, конвертируются ли рекомендуемые статьи на веб-сайте электронной коммерции и принимают ли эти данные с течением времени, чтобы постепенно оптимизировать механизм рекомендаций.

Особенности разработки

Разработка продуктов машинного обучения требует адаптации к нескольким особенностям:

Неопределенность. Машинное обучение — это исследовательский мир.

  • Производительность модели. Трудно заранее знать, будет ли достигнута целевая производительность моделирования, и если да, то когда. Более того, модели могут хорошо работать на обучающих данных, но не могут обобщать данные реального мира в производственной среде — явление, называемое переоснащением. Таким образом, менеджеры по продуктам должны сбалансировать время выхода на рынок и долгосрочную ценность, выбирая между быстрыми итерациями с поэтапной оптимизацией и крупными проектами с более амбициозными целями, направленными на радикальное повышение производительности.
  • Управление временем. Сроки и билеты также менее предсказуемы, поэтому нам нужно быть осторожными при оценке, чтобы управлять ожиданиями — не обещать больше и не выполнять меньше.
  • Обработка ошибок. Поскольку алгоритмы несовершенны, исследования пользователей и здравый смысл могут помочь оценить критерии приемлемости и определить, какие случаи отказа ожидаются, а какие недопустимы (например, разные допуски между рекомендациями статей и беспилотными автомобилями).

Масштабируемость. Производственные операции различаются между разработкой программного обеспечения (DevOps) и машинным обучением (MLOps).

  • От концепции до производства. Как правило, мы обучаем и тестируем прототипы моделей на персональном компьютере или локальном сервере, а затем внедряем доработанную модель в производство. Этот последний шаг сложен, поскольку модели требуется оперативный доступ к данным через выделенные API или конвейеры (например, прогнозирование дорожных происшествий на основе погоды в реальном времени). Для этого также могут потребоваться определенные машины с соответствующими ресурсами ЦП/ГП в зависимости от модели.
  • Сложность и скорость. Сложные алгоритмы требуют больше времени не только на разработку, но и на запуск. Поэтому менеджеры по продуктам должны найти компромисс между сложностью модели и скоростью выполнения. В зависимости от приемлемого уровня задержки ответа для системы мы могли бы предпочесть более простой алгоритм, который выполняется быстрее (например, микросекунды для высокочастотной торговли, миллисекунды для рекомендаций статей и секунды для расчета маршрута GPS).
  • Обновления модели. Еще один аспект, который следует учитывать, — частота переобучения модели (например, ежедневно, еженедельно или ежемесячно). Как правило, модели улучшаются при наличии большего количества или последних данных, но существует компромисс между производительностью модели и усилиями плюс инфраструктурой, необходимыми для обучения и обновления моделей.

Основы машинного обучения

Методы машинного обучения классически делятся на 3 основных типа задач:

Обучение с учителем. У нас есть набор данных с помеченными данными, и мы обучаем модель с помощью алгоритма для прогнозирования будущих меток, когда мы увидим неразмеченные данные. Когда некоторые метки в обучающем наборе данных отсутствуют, мы называем это полууправляемым обучением.

  • Регрессия и классификация. Мы называем это регрессией, если метки принимают непрерывные значения (например, цены на жилье), и классификацией, если метки представляют собой отдельные категории (например, виды животных на изображениях).
  • Разработка и выбор функций. Предсказание меток в выходных данных модели основано на переменных или функциях, которые мы вводим в модель. Например, мы можем передать прошлые значения в модель для прогнозирования временных рядов, а также можем добавить дополнительные функции (например, час, день недели, месяц, погоду, купленные продукты, просмотренные фильмы или проигранные песни) в зависимости от того, что функции релевантны предметной области и задаче. Этот шаг называется проектированием признаков. Существуют также алгоритмы выбора признаков, которые автоматически оптимизируют заданный набор признаков.
  • Модели и алгоритмы. Существует множество моделей со связанными алгоритмами для решения контролируемых задач, таких как линейная регрессия и варианты лассо или гребней, деревья решений и повышение градиента, случайные леса, ближайшие соседи, машины опорных векторов, нейронные сети и глубокое обучение или генетические алгоритмы.

Обучение без учителя. У нас нет обучающего набора с метками, но мы находим структуру и скрытые закономерности в данных. Их можно использовать либо для извлечения информации из данных, либо для подачи контролируемых методов обучения в качестве входных данных.

  • Кластеризация. Это называется кластеризацией, когда мы формируем подмножества точек данных, которые показывают сходство внутри подмножеств, но различия между подмножествами (например, создают пользовательские сегменты или перегруппировывают похожие продукты). Классические алгоритмы представляют собой жесткую кластеризацию k-средних и иерархическую агломеративную кластеризацию.
  • Оценка плотности. У нас также есть оценка плотности, когда мы используем статистическую модель для объяснения данных (например, оцениваем среднее значение и стандартное отклонение нормально распределенных точек). Алгоритмы включают оценку максимального правдоподобия и максимизацию ожидания. Их также можно использовать для мягкой кластеризации точек данных, давая вероятности принадлежности к группам, а не строгое назначение.
  • Уменьшение размерности. Еще одна проблема — уменьшение размерности, когда мы находим избыточность во входных данных, чтобы обобщить их с меньшим количеством переменных (например, визуализировать многомерные данные в 2D или 3D, разложить сложные сигналы на простые атомарные компоненты). Известными алгоритмами являются анализ основных компонентов, анализ независимых компонентов, неотрицательная матричная факторизация и многомерное масштабирование.

Обучение с подкреплением. У нас есть компьютерная программа под названием агент, которая выполняет последовательные действия для навигации по среде, чтобы накапливать вознаграждения. Это особенно используется в автономных транспортных средствах и при обучении игре с противником-человеком (например, в го, шахматах, покере или видеоиграх). Окружающая среда часто моделируется как марковский процесс принятия решений, который представляет собой последовательность возможных состояний и вероятностей перехода между состояниями. Алгоритмы используют методы динамического программирования для изучения этих состояний и оптимизации вознаграждений. Общие методы включают метод Монте-Карло и Q-обучение.

Язык программирования номер один для машинного обучения — Python с хорошо известными совместимыми библиотеками для обработки данных (например, NumPy, SciPy, Matplotlib, Pandas, GeoPandas и Airflow) и для самого машинного обучения (например, Scikit-Learn, XGBoost, CatBoost, LightGBM, Prophet, PyTorch, Theano, TensorFlow, Keras, NLTK и MLflow).

Сообщество машинного обучения велико и включает множество практиков по всему миру и бесчисленное множество конференций, журналов, книг и других ресурсов. Примечательно, что Kaggle — это онлайн-платформа, приобретенная Google, с более чем 8 миллионами зарегистрированных пользователей, которые могут находить и публиковать наборы данных, исследовать и создавать модели, обмениваться информацией и сотрудничать с коллегами, а также участвовать в соревнованиях по решению задач науки о данных с финансовым вознаграждением.

4 — Заключительные заметки

Восемь оттенков работы с данными

В мире данных существует широкий спектр ролей. В небольших компаниях границы часто размыты из-за ограниченных ресурсов и того, что каждый помогает там, где это необходимо. В крупных компаниях роли могут быть структурированы следующим образом:

Инженер данных. Создает конвейеры извлечения-преобразования-загрузки (ETL) в хранилище данных и обратные конвейеры ETL для отправки данных третьим сторонам. Ориентирован на производственную готовность данных.

Аналитик данных. Выполняет очистку данных, извлечение данных и исследовательский анализ данных. Создает понятные визуализации для продукта и / или бизнеса.

Специалист по данным. Похож на аналитика данных, но с продвинутыми навыками машинного обучения. Разрабатывает модели машинного обучения для прогнозирования и рекомендаций.

Менеджер данных. Похож на менеджера по продукту, но также фокусируется на продуктах данных. Обнаруживает передовые идеи, основанные на данных.

Инженер искусственного интеллекта/машинного обучения. Похож на инженера данных, но также занимается конвейерами данных для разработки функций. Развертывание моделей в продакшн.

Ученый по искусственному интеллекту/машинному обучению. То же, что специалист по данным, специализирующийся на машинном обучении.

Исследователь ИИ/МО. Аналогичен ученому ИИ/МО, но также занимается долгосрочными исследованиями и разработками. Иногда пишет статьи и выступает на научных площадках.

Менеджер по продуктам AI/ML. Похож на менеджера по продуктам данных, но также занимается продуктами машинного обучения.

Этика данных

Распространение данных в цифровых продуктах и, в более общем плане, в современном обществе подняло несколько этических проблем. Менеджеры по продукту обязаны создавать ответственные продукты, осознавая и принимая во внимание сложные вопросы:

Предвзятость. Алгоритмы, обученные на несбалансированных наборах данных с несколькими представителями определенных категорий, могут приводить к систематическим ошибкам в результатах (например, дискриминация по признаку пола и расизм при распознавании лиц или найме, а также отсутствие музыкального разнообразия в рекомендациях песен). .

Ошибка. Алгоритмы могут ошибаться, что требует осведомленности для смягчения ошибок в критических ситуациях и фактического сравнения с человеческими ошибками (например, аварии с участием беспилотных автомобилей могут быть более разрушительными и спорными, чем аварии с участием обычных автомобилей, но случаются реже).

Дилемма. Алгоритмы могут столкнуться с дилеммами при принятии решений, и результаты иногда зависят от контекста и культуры (например, решение о том, должен ли самоуправляемый автомобиль сбить ребенка или пожилого человека, если столкновение неизбежно).

Интерпретируемость. Сложные модели могут быть черными ящиками, в которых невозможно понять, почему они прогнозируют или рекомендуют результаты. Это приводит к вопросам о доверии и необходимости человеческой интерпретации (например, в медицинских целях при диагностике болезни).

Конфиденциальность. Персональные данные отслеживаются и монетизируются, что вызывает вопросы юридического характера и безопасности в отношении конфиденциальности данных. Появились такие законы, как GDPR в ЕС и CCPA в Калифорнии, а также новые участники управления согласием и предпочтениями (например, OneTrust и Didomi) и споры (например, скандал с данными Facebook-Cambridge Analytica и утечка данных Google).

Окружающая среда. Данные и алгоритмы потребляют огромные ресурсы, которые способствуют глобальному потеплению и экологическому кризису (например, потоковая передача видео и музыки, центры обработки данных, добыча криптовалюты, а также объемы электронной почты и сообщений).

Советы и выводы

Как вы можете применить все это к вашей роли продукта? Один шаг за раз. Освоение концепций данных для управления продуктом — долгий путь. Опробуйте несколько элементов постепенно и создайте свой собственный путь в этих джунглях.

Разработайте образ мышления, основанный на данных. Первый способ интегрировать данные и повысить ценность для бизнеса – это получить ценную информацию. Информация может быть получена в результате исследования рынка, пользователей или продукта. Они полезны для принятия правильных решений и объединения людей. Данные также замыкают цикл для измерения влияния разработки продукта с помощью OKR в качестве основы для структурирования стратегических инициатив, KPI и NSM в качестве показателей для измерения воздействия и метода SMART для определения целей.

Поэтому обязательно подкрепляйте свои идеи исследованиями и идеями, а не догадками и интуицией. Ставьте четкие цели. Сообщайте о своих результатах с помощью соответствующих показателей. Часто люди используют метрики, не зная, что они означают. Данные не должны быть черным ящиком. Будьте надоедливым человеком, который задает вопросы и устраняет всякую двусмысленность. Уточнить определение метрики и единственный источник истины. Спросите об ожидаемом воздействии, о том, как оно будет измеряться, и о критериях успеха.

Поговорите с командами данных, чтобы узнать их язык и проблемы. Изучите стандартные инструкции SQL и поймите форматы CSV и JSON. Знайте основные таблицы данных и инструменты, используемые в вашей компании. Вам не нужно быть менеджером продуктов данных, но вы должны освоить основы аналитики, чтобы вас воспринимали как законного эксперта в вашей сфере деятельности и чтобы бросить вызов старшим заинтересованным сторонам. Вы всегда можете получить поддержку от групп данных по комплексному анализу.

Создавайте продукты для машинного обучения. Второй способ использования данных для создания ценности для бизнеса – это разработка информационных продуктов. Данные могут быть количественными или качественными. Приложения становятся все более ценными и сложными: от описательных и диагностических до предсказательных и предписывающих. Способность продуктов машинного обучения создавать ценность зависит от эффективности двух этапов моделирования и активации. Такие продукты имеют особенности с точки зрения неопределенности и масштабируемости.

Поговорите с учеными данных, чтобы понять их мир. Изучите немного Python. Знать, как работают классические модели машинного обучения, алгоритмы и метрики. Помогите определить соответствующие переменные для разработки функций. Вам не нужно быть исследователем AI/ML, но вы должны получить общее представление о машинном обучении.

Многие компании продвигают свой продукт с помощью модных словечек, таких как большие данные и искусственный интеллект, только для того, чтобы обнаружить, что они вообще не используют их. Есть также стартапы, которые в течение многих лет фокусируются на осуществимости решений без необходимости для пользователей или деловой жизнеспособности для достижения соответствия продукта рынку и масштабирования. Найдите золотую середину между проблемами и решениями. Искусственный интеллект может порождать новые идеи, но убедитесь, что они соответствуют реальным потребностям. Не переусердствуйте. Первая прогностическая модель для минимально жизнеспособного продукта может быть такой же простой, как скользящее среднее значение или линейная регрессия. Всегда ориентируйтесь на ценность, как со стандартными продуктами.

Не ограничивайтесь данными. Ориентация на данные — ничто без ориентации на пользователя. Лучшие продакт-менеджеры обогащают свои рассказы, сочетая понимание данных и сочувствие пользователей. Кроме того, продакт-менеджеры не должны быть догматичны в отношении данных. Некоторые инициативы не могут быть легко измерены или подкреплены данными, когда информация отсутствует или ее сбор занимает слишком много времени. Теперь мы говорим об информировании о данных, а не об управлении данными, чтобы передать эту потребность в балансе между теорией данных и практической реальностью. Иногда вам даже не нужны данные, когда идея не вызывает затруднений в связи с вашей миссией, видением и позиционированием бренда.

Совершите прыжок веры. Лидеры способны принимать решения в условиях неопределенности. Не все решения имеют решающее значение для развития вашей компании. Сосредоточьтесь на нескольких важных решениях, соберите как можно больше информации и полагайтесь на свое внутреннее чутье в отношении неизвестного. Что касается других решений, помните, что статус-кво и бездействие могут стоить дороже, чем принятие неоптимального решения.

Не бойтесь двигаться быстро, будьте смелыми, терпите неудачи и учитесь. Не будьте парализованы риском. Не становитесь этим иррациональным рационалистом!

Рекомендации

Большое спасибо Элис Ларю, Элизабет Хадсон и Жану-Шарлю Сорину за рецензирование этой статьи!

Если вы хотите присоединиться к нашей продуктовой команде или любому другому отделу Back Market, посмотрите здесь, мы нанимаем! 🦄