В последние годы машинное обучение быстро изменило деловой мир, предоставив компаниям новые возможности для повышения эффективности, оптимизации операций и получения конкурентного преимущества. В результате у организаций растет спрос на разработку собственных систем машинного обучения, адаптированных к их конкретным бизнес-потребностям. Однако создание системы машинного обучения с нуля может быть сложным и пугающим процессом, требующим глубокого понимания технических и бизнес-аспектов проекта. В этой статье мы рассмотрим ключевые соображения и шаги, связанные с созданием системы машинного обучения с нуля, чтобы помочь организациям использовать весь потенциал этой передовой технологии.

CRISP-DM и OSEMN

Фреймворки CRISP-DM и OSEMN являются популярными методологиями для организации и проведения проектов по науке о данных. Они обеспечивают структурированные и стандартизированные подходы к разработке проектов по науке о данных. Их цель — помочь группам специалистов по обработке и анализу данных оставаться организованными и сосредоточенными, обеспечивая своевременное предоставление высококачественных решений для удовлетворения потребностей бизнеса.

Структура CRISP-DM представляет собой шестиэтапный процесс для проектов по науке о данных.

  1. понимание бизнеса

2. Понимание данных

3. Подготовка данных

4. Моделирование

5. Оценка

6. Развертывание.

CRISP-DM фокусируется на обеспечении того, чтобы проект был хорошо структурирован и чтобы различные этапы проекта выполнялись систематически и итеративно.

Структура OSEMN, с другой стороны, состоит из пяти шагов:

1. Получение

2. Скрабирование

3. Изучение

4. Моделирование

5. Интерпретация данных.

OSEMN фокусируется на технических аспектах науки о данных, таких как очистка и подготовка данных, построение моделей и интерпретация результатов.

Одно ключевое различие между CRISP-DM и OSEMN заключается в том, что CRISP-DM уделяет особое внимание этапам бизнес-понимания и развертывания. В то же время OSEMN больше сосредоточен на технических аспектах науки о данных. CRISP-DM больше подходит для крупных и сложных проектов по науке о данных, тогда как OSEMN лучше подходит для небольших и более целенаправленных проектов.

Хотя фреймворки CRISP-DM и OSEMN могут обеспечить прочную основу для общего проекта по науке о данных, предприятия должны оценить, соответствуют ли эти фреймворки их конкретным потребностям, прежде чем внедрять их. Зачастую этих фреймворков недостаточно для удовлетворения целей и требований бизнеса.

Ниже представлено мое видение, основанное на опыте, того, как должна выглядеть универсальная структура обработки данных

ML-проект с нуля

Разработка системы машинного обучения с нуля для нужд бизнеса требует системного подхода, начиная с понимания потребностей бизнеса, построения доказательства концепции, разработки модели, ее тестирования с тонкой настройкой и, наконец, развертывания и поддержки.

Ниже приведено пошаговое руководство о том, как я пытаюсь создать производственные системы машинного обучения.

Шаг 1. Создание доказательства концепции (PoC)

Шаг 1а. Понимание потребностей бизнеса

Прежде чем приступить к разработке, важно понять бизнес-требования и цели системы машинного обучения. Это включает определение проблемы, которую необходимо решить, имеющихся данных и ожидаемых результатов. Это помогает гарантировать, что решаются правильные вопросы и что ресурсы не тратятся впустую.

Шаг 1б. Понимание данных

Понимание данных является важным аспектом любого проекта по науке о данных. Это основа любого процесса принятия решений, основанного на данных, и помогает выявить значимые идеи и закономерности. Понимание данных помогает определить подходящие источники данных и гарантирует, что собранные данные актуальны и точны. Кроме того, это также помогает выявить любые потенциальные отклонения или выбросы, которые могут повлиять на результаты анализа.

Шаг 1с. Исследовательский анализ данных (EDA)

После определения бизнес-вопросов исходные данные можно собрать, грубо очистить и проанализировать с использованием различных статистических методов и методов машинного обучения для извлечения значимых идей и закономерностей. Эти идеи можно использовать для обоснования бизнес-решений, оптимизации процессов и стимулирования роста. Также важно проверить результаты, сравнив их с историческими данными и отраслевыми ориентирами.

Шаг 1г. Создание доказательства концепции (PoC)

PoC помогает проверить выполнимость решения по машинному обучению и бизнес-требования в небольшом масштабе. Этот этап имеет решающее значение, поскольку он помогает проверить идею и оценить, стоит ли искать решение. Обычно эксперименты проводятся с подмножеством данных, с использованием разных алгоритмов и иногда с тонкой настройкой их параметров. Успешный PoC может стать основой для дальнейшего развития. Успех измеряется соответствующей метрикой, которая напрямую связана с бизнес-требованиями. Имейте в виду, что PoC — это всего лишь предварительная оценка решения, которая может не отражать окончательную производительность полностью разработанного продукта.

Шаг 2. Создание минимально жизнеспособного продукта (MVP)

Создание минимально жизнеспособного продукта (MVP) в науке о данных имеет решающее значение для разработки любого решения, основанного на данных. MVP — это упрощенная конечная версия продукта, которая включает только основные функции, решающие основную проблему. Целью MVP является проверка гипотезы и сбор отзывов от заинтересованных сторон: пользователей и клиентов, партнеров и инвесторов.

MVP в науке о данных отличается от PoC тем, что это готовый к рынку продукт, а PoC — это проверка осуществимости решения. PoC обычно фокусируется на оценке технических аспектов решения: точности алгоритмов, скорости обработки и т. д. Напротив, MVP фокусируется на решении бизнес-проблемы и предоставлении ценности конечным пользователям. При создании MVP учитывайте все возможные проблемы с данными и машинным обучением. Таким образом, его можно легко масштабировать по мере роста бизнеса, снижая риск технического долга и потребность в значительных доработках в будущем.

Шаг 2а. Подготовка данных

Подготовка данных. Качество системы машинного обучения зависит от качества данных. Команды продаж, маркетинга и поддержки клиентов могут предоставить ценную информацию о поведении и предпочтениях клиентов. Сбор данных от этих команд может помочь понять целевую аудиторию, ее потребности и то, как можно улучшить продукт или услугу, чтобы удовлетворить эти потребности. После очистки данных, которая может занять больше времени, чем ожидалось, наступает самое интересное. Инженерия признаков — это место, где специалисты по данным используют свои знания и креативность в предметной области для извлечения значимой информации из данных. Они могут манипулировать и преобразовывать данные для извлечения соответствующих функций, которые затем можно использовать для построения моделей.

Шаг 2b. Разработка модели

На этом этапе тестируются и сравниваются различные алгоритмы машинного обучения, чтобы определить наиболее подходящий для бизнес-кейса. Затем выбранный алгоритм дорабатывается и оптимизируется с использованием данных тестирования.

Шаг 2с. Оценка модели

Преобразование желаемых бизнес-результатов в конкретные показатели, которые можно измерить в рамках модели машинного обучения, имеет решающее значение. Это помогает убедиться, что модель соответствует целям и задачам проекта и что в конечном итоге она принесет пользу бизнесу. Независимо от выбранной метрики необходимо установить базовую меру производительности, чтобы отслеживать прогресс и судить о норме отдачи от увеличения сложности решения моделирования.

Шаг 2г. Развертывание модели

Развернутая модель должна иметь возможность обрабатывать входящие данные, делать прогнозы и иногда даже возвращать результаты в режиме реального времени. Процесс развертывания включает в себя интеграцию модели в бизнес, настройку инфраструктуры для размещения модели и тестирование развертывания. Конвейеры запускаются, результаты сохраняются, а уведомления и предупреждения отправляются.

Шаг 3. Следующие шаги

PoC прошел успешно, MVP показал хорошие результаты. Что теперь? Давайте сосредоточимся на том, как мы можем улучшить решение.

Шаг 3а. Отслеживание результатов

Мониторинг производительности модели машинного обучения помогает определить эффективность модели. Чтобы принимать обоснованные решения, регулярно отслеживайте и оценивайте результаты. Именно здесь вступают в игру инструменты мониторинга, такие как PowerBI, Tableau или даже пакеты визуализации Python, обеспечивающие четкое и простое для понимания визуальное представление данных. Это может оказать существенное влияние на успех проекта и общие результаты бизнеса.

Шаг 3б. Производительность решения

Производительность модели обычно можно улучшить, добавив новые данные или функции, изменив алгоритм, настроив параметры или другими способами, связанными с машинным обучением. Затем улучшенная модель повторно обучается и оценивается, при этом процесс повторяется до тех пор, пока не будет достигнута удовлетворительная производительность. После развертывания MVP можно сразу начать итерацию с использованием гибких фреймворков. Инженеры по машинному обучению обычно отдают приоритет решению проблем с инфраструктурой и сохраняют простоту первой модели. Надежный пайплайн позволит в дальнейшем тестировать более сложные модели.

Шаг 3c. Документация модели

Документирование модели и процесса ее разработки важно для дальнейшего использования, обслуживания и обновления модели. Документация должна включать используемые данные, алгоритм, параметры и производительность модели.

Шаг 3г. Поддержка и обучение пользователей

Предоставление поддержки и обучения пользователей имеет решающее значение для успешного внедрения системы машинного обучения. Это включает в себя обучение работе с системой, ответы на запросы пользователей и оказание технической поддержки в случае возникновения каких-либо проблем.

Обзор

Как нетрудно заметить, фрагменты CRISP-DM и OSEMN использовались для создания обобщенной структуры для реализации решения по науке о данных от идеи до продукта. Предлагаемая структура может быть дополнительно адаптирована для удовлетворения конкретных потребностей организации.

Бонус

Система рекомендаций для розничной торговли

Розничная компания хочет улучшить качество обслуживания клиентов, предоставляя персонализированные рекомендации по продуктам. Доступны данные о товарах, а также данные о поиске и навигации. Данные о транзакциях и действиях по добавлению в корзину как в Интернете, так и на мобильных устройствах могут собираться другими командами.
Подготавливаются визуализации, отображающие статистические данные. Тепловые карты анализируются, чтобы понять поведение клиентов. Сети могут быть использованы для выделения графических данных, касающихся элементов продукта.
Команда готовит демонстрацию PoC и тестирует свою систему рекомендаций клиентов на небольшом подмножестве своих клиентов, чтобы увидеть, насколько хорошо она работает.

Команда данных собирает и очищает данные о клиентах, создает функции, нормализует входные данные и преобразует их в формат, подходящий для алгоритмов машинного обучения, разбивая их на наборы данных для обучения и тестирования.
Команда машинного обучения запускает несколько алгоритмов с минимальной настройкой гиперпараметров. Наиболее подходящий алгоритм, основанный на результатах, будет использоваться в системе рекомендаций клиентов. Эффективность системы рекомендаций для клиентов измеряется с помощью показателей отзыва и оценки F1. Компания интегрирует систему рекомендаций клиентов в свой бизнес-процесс, настраивает хостинговую инфраструктуру системы и тестирует развертывание. Группа данных проверяет, что все конвейеры данных работают должным образом.

Ответственный менеджер и команда регулярно контролируют работу системы рекомендаций клиентов и обновляют данные, чтобы гарантировать, что она будет продолжать работать с течением времени. Новые источники данных и алгоритмы тестируются с более тонкой настройкой параметров проводимых экспериментов. Показатели системы рекомендаций клиентов со временем улучшаются. Все результаты отслеживаются в документации, описывающей продукт и данные решения. Были даны надлежащие презентации о том, как использовать развернутую модель и интерпретировать результаты.

Я надеюсь, что эта статья предоставила ценную информацию о том, как начать проект машинного обучения, перейти от PoC к MVP или продолжить улучшение существующих решений машинного обучения.

Если вы нашли эту информацию полезной или у вас есть дополнительные идеи, случаи или материалы, которыми можно поделиться, сообщите мне об этом в разделе комментариев ниже.