Одно изображение, о котором должен знать каждый специалист по данным

Добро пожаловать в неприятную правду о науке о данных, машинном обучении, искусственном интеллекте, глубоком обучении или как бы вы это ни называли. Эта приятная задача по построению модели — лишь малая часть рабочей нагрузки, когда вы запускаете свою модель в жизнь.

Сложность быстро возрастает, когда у вас есть несколько моделей для решения одной проблемы. Сложность увеличивается еще быстрее, когда у вас есть несколько моделей для нескольких проблем или для нескольких клиентов, которым вы должны развертывать свои модели с небольшими изменениями. Это особенно важно, если вы предоставляете решения с искусственным интеллектом (ИИ) по модели «программное обеспечение как услуга» (SaaS).

Путь в ад DevOps/MLOps вымощен благими намерениями и закрытием глаз на технический долг. Хотя на эту тему есть отличные исследования, широко популярная статья Скрытый технический долг в системах машинного обучения (2015), представленная в NIPS 2015 инженерами Google, раскрывает суть настолько ясно, насколько это возможно.

Вот на голову. Наука о данных все больше становится областью разработки программного обеспечения. По мере того, как модели становятся все более мощными и более универсальными, задачи все больше и больше включают их в систему, а не играют с моделями и придумывают решения. Вы должны изучать движущиеся части не меньше, чем новые модели.

Тем не менее, это не повод выбрасывать полотенце. Начните с малого, стройте вещи, взрывайте вещи, начинайте сначала. После нескольких итераций вы найдете хороший баланс между прогрессом и стабильностью. Также имейте в виду, что для обслуживания таких систем требуются значительные команды со специалистами. Если у вас небольшая команда (или вы работаете самостоятельно), просто ознакомьтесь с основами (например, стандартизацией ввода-вывода, ведением журналов, предупреждениями).

Дополнительный бонус: вы также можете снова прочитать статью Необоснованная эффективность данных, опубликованную инженерами и учеными Google, несмотря на то, что в последние годы удалось решить некоторые проблемы. Я постоянно забываю названия и ссылки на статьи, так что мне тоже хорошо, что я написала этот пост :)



Более…