Уступите дорогу инженерам по данным

Наука о данных была горячей темой в пространстве данных уже несколько лет, но начиная с 2019 года зарплаты специалистов по данным сократились на 1,2% в годовом исчислении, в основном из-за перенасыщения рынка.

Это стало слишком популярным. Инструменты и методы теперь достаточно абстрагированы, чтобы не исследователи данных могли выполнять значительную часть работы, не имея серьезного опыта в области науки о данных.

И наоборот, Data Engineer остается ведущей технической должностью с увеличением количества публикаций на 88,3% за последние двенадцать месяцев »(опять же, сообщалось в 2019 году). Этот рост произошел по мере того, как компании узнали, что качество результатов работы специалистов по обработке данных зависит от качества данных, которые они используют.

Почему число инженеров по обработке данных растет?

Инженерия данных восстает против науки о данных так же, как программная инженерия обогнала информатику (эту тенденцию труднее увидеть - большинство инженеров-программистов изучают информатику, но затем становятся инженерами-программистами и редко используют правильную информатику).

Поскольку мы абстрагировались от сложности компьютеров от двоичных и логических вентилей до графических операционных систем и современных языков программирования, программная инженерия стала более популярной, чем информатика. Это потому, что эта абстракция требует людей, которые могут соединять разные строительные блоки вместе для создания единого приложения, а не программировать все строительные блоки с нуля.

Компании хотят создавать программное обеспечение быстро, поэтому повторно использовать уже существующие библиотеки и пакеты и собирать их вместе более желательно, чем тратить недели на их самостоятельное создание.

Разработчики программного обеспечения редко изобретают велосипед заново. Они строители, которые используют все доступные им инструменты.

Та же самая картина появляется в областях науки о данных и инженерии данных. Вначале вам понадобятся специалисты, которые понимают, как писать сложный код и математические модели, необходимые для создания механизмов рекомендаций и нейронных сетей.

Многие из этих вещей теперь абстрагированы до такой степени, что вы можете импортировать библиотеку на своем любимом языке программирования (или даже использовать облачный сервис), добавить некоторые данные и получить ответы без необходимости понимать, что происходит между ними. . Все, что вам нужно, - это кто-то, кто сможет правильно отформатировать и очистить данные, чтобы получить наилучший результат.

Вот почему растет спрос на инженеров по обработке данных.

Подобно их программным аналогам, существует спрос на людей, которые могут взять готовые строительные блоки для науки о данных и собрать их вместе таким образом, чтобы получить аналогичные результаты, но за меньшее время, вместо того, чтобы строить каждый блок с нуля.

Сложная часть науки о данных - это уже не наука о данных, а инженерия данных. Это выборка, обработка и хранение данных, которые будут использоваться для построения этих моделей, а затем их подготовка к производству.

Действительно ли наука о данных умирает?

Конечно, нет! Это была просто переоцененная акция, которую рынок скорректировал.

Это было широко распространенное модное слово, которое утверждало, что с помощью машинного обучения и искусственного интеллекта можно решить все проблемы бизнеса. Однако в большинстве случаев инфраструктура данных просто отсутствовала для многих организаций. Это замедляет работу специалистов по обработке данных и мешает им реализовать «будущее пения и танцев».

Теперь известно, что наука о данных сама по себе - не серебряная пуля. Для достижения наилучших результатов вам понадобится хорошее сочетание инженеров и специалистов по обработке данных. В большинстве случаев, однако, не удивляйтесь, если ваша повседневная работа в качестве специалиста по данным будет выглядеть и ощущаться как работа по проектированию данных.

Тем не менее, есть области и области, в которых требуются серьезные специалисты по данным. Как и настоящие ученые-информатики, они будут продвигать инновации в области науки о данных и работать в таких компаниях, как Tesla, помогая проложить путь для технологий беспилотных транспортных средств.



Всегда будут компании, которые стремятся к очень высокой точности моделей, и именно здесь специалисты по данным наиболее ценны. Специалисты, которые могут копаться в сорняках, выжать из модели лишние 0,01%.

Однако большинству компаний просто нужен механизм рекомендаций и, возможно, что-то для прогнозирования ухода пользователей; И то, и другое можно сделать с помощью инструментов облачного провайдера, таких как Amazon Personalize, или путем импорта нескольких библиотек в приложение R или Python.

К счастью, другие специалисты по данным уже проделали эту тяжелую работу над этими тривиальными проблемами и упаковали их в простые в использовании модули, преимущества которых может извлечь любой инженер.

Дело не в том, что наука о данных вымирает, она стала более доступной и широко распространенной, чем когда-либо.

Специализированные навыки, которые когда-то требовались для науки о данных, уменьшаются из-за абстракции популярных методов.

Проверку временем пройдут специалисты по данным, действительно являющиеся специалистами в своей области. Те, кто может выжать из этого дополнительную производительность или опубликовать следующую большую статью, которая решает ранее сложную проблему быстрее или проще.

По мере того, как рынок труда исправится, мы начнем видеть, что должности в области науки о данных и инженерии данных станут более сбалансированными.

Если вы сейчас занимаетесь одной из этих ролей, я призываю вас узнать больше о другой. На мой взгляд, это знание того и другого поможет вам занять первое место в списке приложений.