Что ищут работодатели?

Ожидается, что специалисты по данным много знают о машинном обучении, информатике, статистике, математике, визуализации данных, коммуникации и глубоком обучении. В этих областях есть десятки языков, фреймворков и технологий, которым могут научиться специалисты по данным. Как следует тратить бюджет на обучение специалистам по данным, которые хотят, чтобы работодатели пользовались спросом?

Я просмотрел веб-сайты со списком вакансий, чтобы определить, какие навыки наиболее востребованы для специалистов по данным. Я рассмотрел общие навыки работы с данными и отдельные языки и инструменты отдельно.

ОБНОВЛЕНИЕ: в конце 2019 года я снова посмотрел на технологии и сравнил их с результатами 2018 года, чтобы увидеть, какие навыки растут, а какие снижаются. См. Анализ здесь.

10 октября 2018 года я искал списки вакансий в LinkedIn, Indeed, SimplyHired, Monster и AngelList. Вот диаграмма, показывающая, сколько вакансий в области Data Science указано на каждом веб-сайте.

Я прочитал множество списков вакансий и опросов, чтобы найти наиболее распространенные навыки. Такие термины, как менеджмент, не сравнивались, потому что они могут использоваться в очень разных контекстах в списках вакансий.

Все поиски выполнялись для США с использованием «data science» «[ключевое слово]». Использование поиска с точным соответствием уменьшило количество результатов. Тем не менее, этот метод гарантировал, что результаты релевантны для позиций специалистов по данным и одинаково повлияли на все поисковые запросы.

AngelList предоставляет количество компаний со списками специалистов по данным, а не количество позиций. Я исключил AngelList из обоих анализов, потому что его алгоритм поиска, похоже, работает как логический поиск типа ИЛИ, без возможности изменить его на И. AngelList отлично работает, если вы ищете «специалист по данным» «TensorFlow», который можно найти только на должностях специалистов по данным, но если ваши ключевые слова - «специалист по данным» «react.js он возвращает слишком много списков компаний, в которых есть вакансии, не занимающиеся исследованием данных.

Glassdoor также был исключен из моих анализов. На сайте указано, что у него 26 263 работы специалист по данным в США, но он покажет мне не более 900 вакансий. Кроме того, маловероятно, что на ней будет более чем в три раза больше вакансий специалистов по анализу данных, чем на любой другой крупной платформе.

В окончательный анализ были включены термины с более чем 400 списками в LinkedIn для общих навыков и более 200 списками для конкретных технологий. Конечно, был кросс-постинг. Результаты заносятся в эту таблицу Google.

Я скачал файлы .csv и импортировал их в JupyterLab. Затем я вычислил процент вхождений и усреднил их по сайтам со списком вакансий.

Я также сравнил результаты программного обеспечения с результатами исследования Glassdoor его списков вакансий специалистов по обработке данных за первую половину 2017 года. В сочетании с информацией из исследования использования KDNuggets, похоже, некоторые навыки становятся более важными, а другие теряют значение. Мы поговорим об этом чуть позже.

См. Мое ядро ​​Kaggle для интерактивных диаграмм и дополнительных анализов здесь. Я использовал Plotly для визуализаций. На момент написания этой статьи для использования Plotly с JupyterLab потребовалось немного спорить. Я написал руководство по использованию Plotly, которое вы можете увидеть здесь.

Общие навыки

Вот диаграмма наиболее часто используемых работодателями навыков специалистов по анализу данных.

Результаты показывают, что анализ и машинное обучение лежат в основе работы специалистов по данным. Получение информации из данных - основная функция науки о данных. Машинное обучение - это создание систем для прогнозирования производительности, и оно очень востребовано.

Наука о данных требует навыков статистики и информатики - в этом нет ничего удивительного. Статистика, информатика и математика также изучаются в колледжах, что, вероятно, помогает им чаще.

Интересно, что общение упоминается почти в половине объявлений о вакансиях. Специалисты по обработке данных должны уметь делиться своими идеями и работать с другими.

ИИ и глубокое обучение встречаются не так часто, как другие термины. Однако это подмножества машинного обучения. Глубокое обучение используется для все большего количества задач машинного обучения, для которых ранее использовались другие алгоритмы. Например, лучшие алгоритмы машинного обучения для большинства задач обработки естественного языка теперь - это алгоритмы глубокого обучения. Я ожидаю, что в будущем навыки глубокого обучения будут востребованы более явно, и что машинное обучение станет более синонимом глубокого обучения.

Какие конкретные программные инструменты для специалистов по обработке данных ищут работодатели? Давайте теперь займемся этим вопросом.

Технологические навыки

Ниже приведены 20 самых популярных языков, библиотек и технических инструментов, с которыми работодатели ищут специалистов по обработке данных, чтобы иметь опыт работы с ними.

Давайте кратко рассмотрим наиболее распространенные технические навыки.

Python - самый востребованный язык. Популярность этого языка с открытым исходным кодом наблюдается повсеместно. Он удобен для новичков, имеет множество ресурсов поддержки. Подавляющее большинство новых инструментов для анализа данных совместимо с ним. Python - это основной язык для специалистов по данным.

R не сильно отстает от Python. Когда-то это был основной язык науки о данных. Я был удивлен, увидев, насколько он востребован до сих пор. Корни этого языка с открытым исходным кодом находятся в статистике, и он по-прежнему очень популярен среди статистиков.

Python или R необходимы практически для каждой должности специалиста по обработке данных.

SQL также пользуется большим спросом. SQL означает язык структурированных запросов и является основным способом взаимодействия с реляционными базами данных. SQL иногда упускают из виду в мире науки о данных, но это навык, которым стоит продемонстрировать мастерство, если вы планируете выйти на рынок труда. ОБНОВЛЕНИЕ декабрь 2019 г .: у меня в разработке есть книга по SQL. Присоединяйтесь к моему списку рассылки Data Awesome, чтобы не пропустить его. 👍

Далее идут Hadoop и Spark, оба инструмента с открытым исходным кодом от Apache для больших данных.

Apache Hadoop - это программная платформа с открытым исходным кодом для распределенного хранения и распределенной обработки очень больших наборов данных на компьютерных кластерах, построенных на стандартном оборудовании. -" Источник".

Apache Spark - это быстрый механизм обработки данных в памяти с элегантными и выразительными API-интерфейсами разработки, позволяющий работникам обработки данных эффективно выполнять потоковую передачу, машинное обучение или рабочие нагрузки SQL, требующие быстрого итеративного доступа к наборам данных. - Источник".

Об этих инструментах на Medium и в учебных пособиях написано значительно меньше, чем о многих других. Я ожидаю, что этими навыками обладает гораздо меньше кандидатов на вакансию, чем Python, R и SQL. Если у вас есть или вы можете получить опыт работы с Hadoop и Spark, это должно дать вам преимущество в конкурентной борьбе.

Затем идут Java и SAS. Я был удивлен, увидев, что эти языки так высоки. За обеими сторонами стоят крупные компании и есть хоть какие-то бесплатные предложения. Как Java, так и SAS, как правило, получают мало внимания в сообществе специалистов по науке о данных.

На очереди Табло. Эта аналитическая платформа и инструмент визуализации мощны, просты в использовании и пользуются все большей популярностью. У него есть бесплатная общедоступная версия, но она будет стоить вам денег, если вы хотите сохранить конфиденциальность своих данных.

Если вы не знакомы с Tableau, вам определенно стоит пройти быстрый урок, например Tableau 10 A-Z по Udemy. Я не получаю комиссию за предложение - я просто прошел курс и нашел, что это очень ценное предложение.

На приведенной ниже диаграмме показан еще больший список наиболее востребованных языков, фреймворков и других программных инструментов для обработки данных.

Историческое сравнение

GlassDoor провела анализ 10 наиболее распространенных навыков работы с программным обеспечением для специалистов по обработке данных с января по июль 2017 года на своем сайте. Вот сравнение того, как часто эти термины появлялись на их сайте, по сравнению со средним показателем в LinkedIn, Indeed, SimplyHired и Monster в октябре 2018 года.

Результаты довольно похожи. И мой анализ, и GlassDoor показали, что Python, R и SQL являются наиболее востребованными. Мы также обнаружили те же девять основных технологических навыков, хотя и в несколько разном порядке.

Результаты показывают, что по сравнению с первой половиной 2017 года R, Hadoop, Java, SAS и MatLab теперь менее востребованы, а Tableau более востребован. Это то, чего я ожидал, учитывая дополнительные результаты из таких источников, как Опрос разработчиков KDnuggets. Здесь R, Hadoop, Java и SAS демонстрируют четкую многолетнюю тенденцию к снижению использования, а Tableau демонстрирует четкую тенденцию к росту.

Рекомендации

Основываясь на результатах этого анализа, вот несколько общих рекомендаций для нынешних и начинающих специалистов по данным, заинтересованных в том, чтобы сделать себя широко востребованными.

  • Продемонстрируйте, что вы умеете анализировать данные, и сосредоточьтесь на том, чтобы стать действительно опытным в машинном обучении.
  • Инвестируйте в свои коммуникативные навыки. Я рекомендую прочитать книгу Made to Stick, чтобы ваши идеи повлияли на вас больше. Также проверьте приложение Hemmingway Editor, чтобы улучшить четкость вашего письма.
  • Освойте фреймворк глубокого обучения. Владение фреймворком глубокого обучения - это все большая и большая часть владения машинным обучением. Для сравнения фреймворков глубокого обучения с точки зрения использования, интереса и популярности см. Мою статью здесь.
  • Если вы выбираете между изучением Python и R, выберите Python. Если у вас есть Python, подумайте о том, чтобы изучить R.

Когда работодатель ищет специалиста по данным с навыками Python, он также может ожидать, что кандидаты будут знать общие библиотеки науки о данных Python: NumPy, pandas, Scikit-learn и Matplotlib. Если вы хотите изучить этот набор инструментов, я предлагаю следующие ресурсы:

  • ОБНОВЛЕНИЕ Декабрь 2019 г .: Недавно я выпустил свою книгу Memorable Python, чтобы помочь вам изучить Python удобным для мозга способом! 🐍 Проверьте, звучит ли это для вас. 😀

  • DataCamp и DataQuest - это онлайн-продукты SaaS для обучения науке о данных по разумной цене, где вы учитесь, кодируя. Они оба обучают ряду технологических инструментов.
  • Школа данных имеет множество ресурсов, включая прекрасный набор видеороликов на YouTube, объясняющих концепции науки о данных.
  • Python для анализа данных от McKinney. В этой книге основного автора библиотеки pandas основное внимание уделяется пандам, а также обсуждаются базовые функции Python, NumPy и Scikit-learn для науки о данных.
  • Введение в машинное обучение с помощью Python от Müller & Guido. Мюллер является основным разработчиком scikit-learn. Это отличная книга для обучения машинному обучению с помощью scikit-learn.

Если вы хотите погрузиться в глубокое обучение, я предлагаю начать с Keras или FastAI, прежде чем переходить к TensorFlow или PyTorch. Глубокое обучение с помощью Python Чолле - отличный ресурс для изучения Keras.

Помимо этих рекомендаций, я предлагаю вам узнать, что вас интересует, хотя, очевидно, есть много соображений при принятии решения о том, как распределить свое учебное время.

Если вы ищете работу специалиста по данным через онлайн-порталы, я предлагаю вам начать с LinkedIn - он неизменно дает наибольшие результаты.

Если вы ищете работу или размещаете вакансии на сайтах вакансий, ключевые слова имеют значение. «наука о данных» возвращает почти в 3 раза больше результатов, чем «специалист по данным» на каждом сайте. Но если вы ищете строго специалиста по анализу данных, вам, вероятно, лучше искать по запросу «специалист по данным».

Независимо от того, куда вы смотрите, я предлагаю вам создать онлайн-портфолио, которое продемонстрирует ваше мастерство в как можно большем количестве востребованных областей навыков. Я сделал небольшое руководство по созданию сайта-портфолио здесь.

В рамках этого проекта я собрал другие данные, которые могу превратить в статьи. Следуй за мной, чтобы не пропустить. 👍

Если вы хотите увидеть интерактивные диаграммы Plotly и код, стоящий за ними, ознакомьтесь с моим Kaggle Kernel.

Я надеюсь, что эта статья дала вам некоторое представление о том, что ищут организации, нанимающие специалистов по данным. Если вы что-то узнали, поделитесь этим в своих любимых социальных сетях, чтобы другие люди тоже могли это найти 😃.

Я пишу о данных, облачных вычислениях и других технических вещах. Следуйте за мной и читайте больше здесь, если вам это нравится. 😀

Удачного обучения! 📖