"Экономический рост может быть ограничен не тем, что мы делаем хорошо, а тем, что важно, но трудно улучшить". — Болезнь Баумоля (1967 г.)

Машинное обучение (ML) в основном управляется тремя фундаментальными элементами: алгоритмами, данными и вычислениями. Однако не все эти факторы развиваются с одинаковой скоростью, и некоторые из них улучшить сложнее, чем другие. В этой статье я утверждаю, что это несоответствие служит препятствием для роста и широкого распространения приложений машинного обучения. Чтобы лучше понять эту загадку, давайте рассмотрим тенденции в основных факторах развития машинного обучения.

Производительность оборудования

Графические процессоры, наряду с аппаратным обеспечением, таким как TPU, в последние годы привели в действие большинство важных моделей машинного обучения. С 2006 года FLOPS на доллар, мера их экономической эффективности, увеличивалась со скоростью 1,32x в год. Эта тенденция в первую очередь обусловлена ​​экономией на масштабе, которая, как ожидается, будет ежегодно снижать стоимость оборудования машинного обучения на 57%. Согласно прогнозу ARK Investment, это снижение затрат приведет к снижению затрат на обучение ИИ на 70% к 2030 году.

Однако затраты на вывод часто затмевают общие затраты на успешно развернутые системы. По оценкам NVIDIA и Amazon Web Services, 80–90% рабочей нагрузки машинного обучения приходится на обработку логических выводов. Признавая важную роль логических выводов в жизненном цикле модели машинного обучения, технологические гиганты, такие как Alibaba, Amazon, Google и NVIDIA, разработали ускорители машинного обучения исключительно для логических выводов.

Алгоритмический прогресс

С 2012 года вычислительные ресурсы, необходимые для достижения заданной производительности в ImageNet, снижались на 0,4 раза в год. Это снижение в значительной степени связано с алгоритмическими достижениями, увеличивающими вычислительную мощность, которые обеспечивают более высокую производительность при меньшем количестве вычислений. Усовершенствования в программном обеспечении для оборудования, такие как оптимизированные реализации стандартных процедур, таких как прямая и обратная свертка, объединение, активация и стандартные методы нормализации, в первую очередь способствовали этой тенденции к снижению. Внедрение высокоуровневых библиотек, интерпретаторов и компиляторов также улучшило производительность оборудования.

Эти улучшения способствуют снижению как стоимости обучения, так и логического вывода. Учитывая, что затраты на логические выводы увеличиваются по мере использования системы, а расходы на обучение носят разовый характер, может оказаться выгодным дальнейшая оптимизация моделей для повышения эффективности во время логических выводов. Тем не менее, по сравнению с обучением, распараллеливание логических выводов создает менее сложные инженерные проблемы, поскольку информация продвигается исключительно вперед, что делает конвейерный параллелизм высокоэффективным и снижает потребность в альтернативных методах масштабирования. Внедрение новых сложных библиотек, таких как DeepSpeed (Rasley et al. 2020), а также интерпретаторов и компиляторов, таких как TVM (Tianqi et al. 2018), может значительно повысить производительность оборудования за счет адаптации к быстрым изменения в алгоритме и оборудовании.

Повышение точности модели

Характер убывающей отдачи наблюдается, когда речь идет о тенденциях точности. Как правило, путь разработки приложения машинного обучения начинается с заметного скачка в точности. Однако скорость этих улучшений постепенно снижается, что приводит к общему асимптотическому увеличению точности, несмотря на постоянные значительные усилия.

Эта тенденция связана со стоимостью обучения моделей глубокого обучения, которая зависит от количества параметров и количества точек данных. В условиях чрезмерной параметризации это соотношение означает, что требования к вычислениям растут, по крайней мере, так же быстро, как квадрат числа точек данных.

Согласно этой оценке, чтобы повысить производительность в p раз, количество точек данных, используемых для обучения, должно увеличиться как минимум на p², что приведет к общей вычислительной стоимости улучшения как минимум на p⁴. Следовательно, линейное повышение производительности обычно требует более быстрого, чем линейное, увеличения объема обучающих данных и вычислений. (См. рис. 1)

Эти проблемы усугубляются присущей обучению моделей глубокого обучения сложностью. Как и в задачах с интенсивными вычислениями, таких как прогнозирование погоды, повышение производительности потенциально может потребовать экспоненциального увеличения вычислительной мощности, что подчеркивает сложный и ресурсоемкий путь вперед.

Рост набора данных

Данные, являющиеся жизненной силой моделей машинного обучения, имеют свои проблемы. Сбор высококачественных данных, особенно когда требуется знание предметной области, может быть непомерно дорогим. Эти значительные первоначальные затраты часто препятствуют разработке приложений машинного обучения.

Несмотря на эти проблемы, доступный запас текстовых данных и изображений рос со скоростью 1,4 раза в год в период с 1990 по 2018 год. С ростом данных также росли размеры моделей и требования к вычислительным ресурсам для обучения. Однако прогнозируется, что к 2024 году набор обучающих данных известных моделей машинного обучения исчерпает запас профессионально отредактированных текстов в Интернете, что потребует большего внимания к качеству данных.

По соглашению с Сэмом Альтманом, генеральным директором OpenAI, будущее может быть не обязательно за гигантскими моделями, а за высококачественными данными для обучения ИИ в конкретной предметной области и более умными алгоритмами.

Анализ выгоды и затрат

Понимание финансовых последствий этих тенденций может быть полезным при ведении бизнеса на основе машинного обучения. В этом контексте я буду исследовать операции бизнеса ML, используя анализ стоимости и прибыли для обученной модели ML.

Одним из ключевых соображений в такой бизнес-модели является дифференциация между постоянными и переменными затратами. Единовременные расходы на обучение модели машинного обучения являются фиксированными затратами, включая затраты на оборудование, программное обеспечение и инвестиции в разработку. Напротив, стоимость обслуживания, которая включает в себя стоимость выводов (прогнозов) и стоимость ручного исправления ошибок, допущенных моделью, рассматривается как переменная стоимость.

Точность модели играет решающую роль в определении переменных затрат. Модель с более низкой точностью будет производить больше ошибок, что приведет к более высокой стоимости ручных исправлений. Впоследствии это приводит к более низкой маржинальной прибыли из-за увеличения операционных расходов. И наоборот, модель с более высокой точностью генерирует меньше ошибок, следовательно, меньшие затраты на исправление и, следовательно, более высокую маржинальную прибыль.

Формула CVP для бизнеса на основе ML может быть представлена ​​следующим образом:

Безубыток (BE) = стоимость обучения / маржинальный вклад

Маржа вклада = Доход — Стоимость обслуживания

Стоимость обслуживания = стоимость вывода + стоимость исправления ошибок вручную

Стоимость исправления ошибок вручную = (1 — Точность) * Стоимость исправления вручную

Хотя модели с более высокой точностью могут потребовать больших первоначальных инвестиций (более высоких фиксированных затрат), они могут компенсировать это за счет более низких переменных затрат и более высокой маржинальной прибыли с течением времени. Это может привести к тому, что их общая рентабельность превысит рентабельность моделей с более низкой точностью при условии, что разница в затратах на обучение будет меньше, чем экономия, достигнутая за счет сокращения количества ручных исправлений. Таким образом, стремление к высокой точности может быть стратегическим бизнес-шагом, выходящим за рамки чисто технической цели.

Заключение

Из приведенных выше наблюдений становится ясно, что, хотя эффективность вычислений продолжает неуклонно повышаться, ограничение заключается в точности модели. Следовательно, затраты и усилия по улучшению этой важной, но сложной области, наряду с решениями, касающимися компромиссов, в первую очередь будут способствовать будущим достижениям.

Настоящие проблемы при разработке приложений машинного обучения связаны с этими изначально трудными для улучшения областями, тем самым демонстрируя, что даже область машинного обучения не застрахована от «болезни затрат» Баумоля. Это понимание может иметь решающее значение для определения будущего направления развития машинного обучения в бизнесе.