Вы строите карьеру специалиста по обработке и анализу данных. Даже возглавил небольшой отряд. Теперь успех от того, чтобы стать великим специалистом по данным или руководить небольшой командой специалистов по данным, может не проявляться напрямую, если вы руководите более крупной организацией, занимающейся наукой о данных, — поскольку ваша команда расширяется до нескольких проектов по науке о данных с несколькими ведущими специалистами по данным. Конечно, вы знаете, как лучше всего понимать модели и интерпретировать результаты. Но вы все кроме одного человека.

Как правильно масштабировать свои усилия?

Конечно, нанимайте больше умных людей — таких же или лучше вас.

Как вы отслеживаете всю важную статистику в масштабе?

Вы доверяете своим заместителям следить за этим. Однако немного иронично управлять организацией данных на доверии. Вам нужны механизмы для проверки. Управление плотным кораблем потребует минимальной утечки информации. Вы знаете, что каждый день генерируются идеи, которые теряются, потому что механизмов для их хранения и отслеживания не существует.

Много говорят о MLOps, и за последние несколько лет в пространство выходит ряд компаний (стартапы в дополнение к услугам, предлагаемым большой тройкой поставщиков платформ ML — AWS, Microsoft и "Google"). Все они имеют элегантные инструменты для настройки гиперпараметров, разработки функций и т. д. Какими бы важными они ни были, они предназначены для основной технической группы, чтобы постепенно улучшать свое влияние. Как вы, как руководитель, имеете целостное представление обо всех событиях? Вот почему у вас должна быть такая точка зрения.

Две цели, которые имеют наибольшее значение по мере роста вашей команды специалистов по обработке и анализу данных, — это воспроизводимость и объяснимость.

Воспроизводимость. Руководители научных исследований, которых вы нанимаете в свою команду, должны иметь возможность воспроизвести результат, полученный их группой аналитиков/ученых. Не воссоздание упражнения с нуля, а возможность выполнить одно и то же утверждение в общей записной книжке и увидеть те же результаты, которые будут включены в любой исполнительный слайд. Воспроизводимость необходима для уверенности в ваших результатах.

Объяснимость. Лидеры, не занимающиеся наукой, которых вам нужно убедить, потребуют обоснования любых ваших рекомендаций. Да — модели машинного обучения по своей сути являются черными ящиками — именно поэтому они делают то, что человеческий разум не может понять. Однако, когда вы генерируете идеи в масштабе, есть много шагов предварительного моделирования, которые можно измерить, отследить и использовать в вашем объяснении.

Вот шпаргалка со списком четырех основных инструментов, необходимых для более крупной организации, занимающейся наукой о данных.

1. Управление версиями набора данных:

Скажем, у вас есть два (или два десятка) специалистов по данным, работающих над проектом, и у них есть доступ к одному и тому же набору данных. Однако один из них разделяет 70/30 на тренировку/тест, а другой — 65/35. Есть большая вероятность, что внутреннее свойство их обучающего и тестового набора данных имеет значимые различия. Измерение и отслеживание этих различий было бы важно для установления правильной дисциплины для большой научной группы. Хотя некоторые ученые могут делать это вручную в автономном файле Excel, очевидно, что это не масштабируемый подход.

Почему это важно? Без этого всегда будет утечка знаний. Высокая текучесть специалистов по данным (среднее время в компании: 1,7 года) в команде будет означать безвозвратную потерю этих знаний. А вместе с этим будет прочная и легкая основа дисциплины для вашей растущей команды. Это поможет как с воспроизводимостью, так и с объяснимостью.

Как мне его получить? Вам нужен автоматический способ управления версиями наборов данных для разных пользователей и временных рамок. Есть несколько доступных решений — проверьте dvc, neptune, толстокожий и т. д. На что обратить внимание при оценке вариантов:

а. Действительно ли это автоматизированный инструментарий для специалистов по обработке и анализу данных? Будет ли это дополнительным бременем для них? Если да — сотрите это и оцените следующий вариант.

б. Будет ли это создавать централизованное графическое представление, которым можно будет поделиться с нетехническими заинтересованными сторонами? Ответ, который вам нужен, — «Да».

2. Версии эксперимента:

Опять тот же сценарий — один проект и два ученых. Они оба пробуют несколько готовых моделей на этапе выбора модели. Каждый раз, когда они проводят испытание, результаты (хорошие или плохие) отслеживаются только в их сознании. Они могут провести 50 (или 500) испытаний, и с каждой итерацией есть чему поучиться для них и для более крупной команды, как для этого проекта, так и для всех будущих. Например, Random Forest может работать с вашим проектом лучше, чем Catboost, и может давать постоянную ошибку на 2 процентных пункта ниже, чем Catboost. Если вы автоматически отследите это понимание, это станет большим благом для будущих проектов. Это будет и впредь обеспечивать более прочную основу для будущих команд.

Почему это важно? Без этого вы оптимизируете для краткосрочного успеха в качестве научной фабрики. С его помощью вы инвестируете в устойчивый успех будущих проектов. В качестве дополнительного преимущества вы теперь можете четко объяснить заинтересованным сторонам, не являющимся техническими специалистами, затраты времени и денег на все испытания.

Как мне его получить? Вам нужен автоматизированный и принципиальный способ отслеживания всех опробованных вами моделей; и каждой итерации модели. Не полагайтесь на автономное управление версиями в файле Excel, чтобы отслеживать ваши эксперименты. Есть несколько новых стартапов, которые помогают в отслеживании экспериментов, хотя требуется время, чтобы оценить, действительно ли они соответствуют вашим собственным критериям — посмотрите iterative, MLflow, Weights and Biases, Comet и т. д. На что обратить внимание поскольку вы оцениваете варианты:

а. Действительно ли это автоматизированный инструментарий для специалистов по обработке и анализу данных? Будет ли это дополнительным бременем для них? Если да — сотрите это и оцените следующий вариант.

б. Будет ли это создавать централизованное графическое представление, которым можно будет поделиться с нетехническими заинтересованными сторонами? Ответ, который вам нужен, — «Да».

3. Обзор набора данных/экспериментов без кода:

Это уже должно быть включено в оба вышеперечисленных инструментария, однако требует особого упоминания. Когда вы внедряете масштабируемую дисциплину на своей научной фабрике, вам потребуются механизмы для обучения нетехнических заинтересованных сторон. Это ваши деловые партнеры, продакт-менеджеры, финансовые руководители, юристы, маркетологи и т. д. — никто из них не захочет верить вашим научным уравнениям и функциям ошибок. Им нужно видеть тенденцию того, что сработало? , что не так? , почему не получилось? , как мы в тренде? и т. д. — все для того, чтобы они могли объяснить то же самое своему начальству. Вам нужен подход в один клик, чтобы поделиться текущими результатами и, желательно, ходом ваших испытаний. Такой уровень прозрачности придаст дополнительную убедительность вашим рекомендациям. Это поможет вам сделать такие утверждения, как «Моя команда испробовала 78 различных подходов к этому проекту, и я рекомендую 56-й подход, потому что…»

Почему это важно? Без этого вам всегда будет трудно завоевать доверие и поддержку со стороны нетехнических заинтересованных сторон. Благодаря этому вы сделаете их настоящими партнерами в долгосрочном успехе вашей научной фабрики. И они будут продолжать инвестировать.

Как мне его получить? Вам нужен подход на основе графического интерфейса, чтобы любой сотрудник компании мог отслеживать и просматривать любую версию набора данных или эксперимента. Есть несколько новых стартапов, которые помогают отслеживать эксперименты, хотя для этого, вероятно, потребуется специальная сборка с использованием решений без графического интерфейса, но с открытым исходным кодом, таких как MLflow. Есть и другие, которые утверждают, что обеспечивают это представление, но они в основном предназначены для других специалистов по данным как заинтересованной стороны, а не заинтересованных сторон бизнеса. На что обратить внимание при оценке вариантов:

а. Будет ли это создавать централизованное графическое представление, которым можно будет поделиться с нетехническими заинтересованными сторонами? Ответ, который вам нужен, — «Да».

4. Измерьте дрейф между каждым набором данных:

Предварительным условием для этого является версионность набора данных. Возможность измерять дрейф каждой из ваших переменных в наборах данных позволит вам создавать настраиваемые триггеры для вашего бизнеса. Хотя измерение дрейфа само по себе является обширным пространством и будет различаться в зависимости от типа набора данных (табличный, неструктурированный, изображение, аудио и т. д.), вам следует начать с измерения дрейфа для табличных наборов данных, поскольку они, вероятно, представляют большую часть проекты.

Почему это важно? Без него вашим ответом по умолчанию на любой вопрос о вашей модели, скорее всего, будет "Машинное обучение – это черный ящик". С ним у вас будут инструменты для упреждающего понимания и объяснения ваших результатов. .

Как мне его получить? Вам нужны предписывающие возможности обнаружения дрейфа, которые позволяют создавать настраиваемые триггеры для конкретного проекта. Есть несколько доступных решений, которые могут помочь с этим — проверьте datarobot, dataiku, azure и т. д. На что обратить внимание при оценке вариантов:

а. Можете ли вы настроить уведомления, которые вы получаете?

б. Можете ли вы создать собственное определение дрейфа?

в. Будет ли это работать для нетабличных наборов данных?

Мне всегда интересно узнать больше, и я рад мозговому штурму идей. Смело подключайтесь.