Не секрет, что первые проекты машинного обучения в компании обычно терпят неудачу или дают некачественные результаты. Что менее известно, так это то, что работа ИИ, как правило, не соответствует тенденции масштабируемости. Вместо затрат, времени на окупаемость и рисков отказа, уменьшающихся с масштабом, с проектами машинного обучения происходит обратное.

Это довольно надежное открытие. Команды искусственного интеллекта будут расширяться с точки зрения обслуживаемых клиентов, управляемых моделей и конвейеров, объема данных, расширения инфраструктуры и набора инструментов. И стандартные правила масштабирования не применяются. Команды ИИ становятся менее продуктивными по мере увеличения масштаба.

Так почему же системы ИИ не могут масштабироваться, как другие операции?

Чтобы ответить на этот вопрос, мы встретились с более чем 60 реальными командами ИИ, практикующими машинное обучение, чтобы понять проблемы, с которыми они столкнулись, когда их компании пытались внедрить и масштабировать свои инициативы в области ИИ. Мы выделили их болевые точки и объединили их с нашим собственным опытом, чтобы получить пять основных категорий:

1 — Организационные проблемы возникают при создании и расширении команды ИИ. Менеджеры по найму все знают о нехватке и высокой стоимости талантов машинного обучения, а неопределенные и дублирующиеся наборы навыков, которые преобладают в общих структурах команд ИИ, только усугубляют эту организационную неэффективность. Показательный пример: в среднем поиск инженера машинного обучения занимает более шести месяцев.

2. Оркестровка инфраструктуры редко выполняется эффективно и часто не позволяет легко воспользоваться преимуществами масштабирования. Для выполнения ресурсоемких задач требуется обширный междисциплинарный опыт, а передача полномочий между экспертами по инфраструктуре и практиками ML не может быть легко масштабирована между разрозненными организациями. Среди более чем 50 % неудачных проектов машинного обучения инфраструктура считается основной причиной неудачи.

3. Автоматизация основных операций машинного обучения редко бывает эффективной. Большинство практиков машинного обучения, с которыми мы говорили, согласны с тем, что продукты AutoML, как правило, имеют ограниченную ценность, от неэффективной оптимизации гиперпараметров до беспорядочного управления экспериментами и плохого UX. Эти проблемы усугубляют ограничения технологии настройки конвейеров. Команды склонны к ручной прошивке OSS — что опять же приводит к отсутствию автоматизации.

4. Производительность развертывания сталкивается с узкими местами, связанными с основными задачами конвейера машинного обучения. Хаотические джунгли конвейера с трудоемким, беспорядочным связующим кодом слишком распространены. Этому подходу также не хватает повторяемости, что требует от команд ИИ заново изобретать неоптимальное колесо для каждого эксперимента. Команды ИИ, которые чувствуют себя комфортно с несколькими простыми пайплайнами, развертываемыми ситуативно, внезапно обнаруживают, что их продукт начинает завоевывать популярность у клиентов. Не формализовав свои процессы развертывания раньше, команды ИИ в конечном итоге резко увеличат время выполнения заказов, а технический долг будет постоянно увеличиваться.

5. Неопределенность в бизнесе мешает лидерам брать на себя обязательства и создавать ценность. Иногда проблема так же проста, как установка ожиданий относительно научно-исследовательской природы машинного обучения, а не стандартной разработки. В других случаях это просто тот факт, что время, затраты и результаты, приносящие пользу, трудно предсказать. В результате время на оценку оказывается больше, чем ожидают лица, принимающие решения, и даже успешные результаты трудно объяснить.

Мы считаем, что решение этих проблем лежит в дисциплине MLOps. Чтобы масштабировать ИИ, компаниям сначала необходимо ввести в действие свои команды, процессы и инструменты интегрированным и слаженным образом. MLOps стремится внедрить передовой опыт и инструменты для быстрого, безопасного и эффективного внедрения ИИ. Точечные показатели эффективности, такие как скорость обучения и совместная работа, объединяются в хорошо управляемой системе MLOps, обеспечивая эффективность масштабирования. И когда эта эффективность достигает своего пика, ценность команды ИИ возрастает в геометрической прогрессии.

В этой серии блогов мы рассмотрим причины, по которым ИИ не удается масштабировать, и обсудим преимущества создания перспективной платформы MLOps. Мы предложим информацию, полученную от нашей команды отмеченных наградами исследователей, а также от многих опрошенных нами практиков машинного обучения. Оставайтесь с нами, чтобы узнать больше о проблемных областях и соответствующих решениях, которые могут помочь вашей команде #ScaleMLOPs.