Работа специалистом по данным считается самой сексуальной работой 21 века и не без оснований. В Linkedin Отчеты о новых вакансиях за 2020 год искусственный интеллект был назван Рабочими местами завтрашнего дня из-за его широкого присутствия. Кроме того, потенциальное применение науки о данных во многих отраслях привлекло в эту область людей самого разного уровня подготовки. Здесь я представляю 5 самых важных навыков специалиста по данным, которые необходимы для их работы в области науки о данных.

Навыки науки о данных

1. Вероятность и статистика

Вероятность и статистика - два тесно связанных математических понятия. Вы не можете полностью понять одно без другого, и они идут рука об руку, чтобы вооружить вас методами работы с данными. Зная, что нет специалиста по обработке данных без данных, эти два навыка составляют вашу самую фундаментальную предпосылку.

Некоторые из соответствующих концепций, с которыми вы должны быть знакомы;

  1. Случайные переменные
  2. Основная и условная вероятность
  3. Распределение вероятностей
  4. Методы отбора проб
  5. Мера центральной тенденции, изменчивости и доверительного интервала
  6. Проверка гипотезы
  7. Центральная предельная теорема
  8. Экспериментальная дизайн

2. Исчисление и линейная алгебра

Еще две математические концепции, которые необходимы профессиональному специалисту по анализу данных. Исчисление и линейная алгебра являются основой большинства, если не всех, алгоритмов машинного обучения. Следовательно, для понимания этих алгоритмов необходимы сильные технические знания в обеих концепциях. Общее понимание этого может быть достаточным, поскольку доступны библиотеки, которые выполняют эти математические операции под капотами.

Опять же, некоторые из наиболее актуальных концепций для науки о данных;

  1. Однофакторное и многовариантное исчисление
  2. Производная и интеграция
  3. Векторное пространство
  4. Скалярное произведение
  5. Собственные векторы

3. Программирование

Пожалуй, самый важный навык специалиста по данным. Помимо знаний для работы с данными, специалистам по обработке данных необходимо иметь инструменты и навыки для преобразования своих теоретических знаний в практическую реализацию. Обычно это делается с использованием той или иной формы программирования, и, следовательно, программирование стало одним из востребованных навыков специалиста по данным.

Для начала я настоятельно рекомендую изучить Python как ваш первый язык программирования. Python легко читать, писать, понимать и имеет наиболее полную поддержку для работы с аналитикой данных. Вы редко ошибетесь, выбрав Python в качестве основного языка программирования.

Еще один популярный язык программирования для науки о данных - статистики, широко использующие R.R. для анализа данных. Однако это не язык программирования общего назначения, такой как Python.

Независимо от языка, ниже приведены некоторые приемы программирования, которые вам необходимо знать;

  1. Базовый синтаксис, функции, ввод / вывод
  2. Заявление об управлении потоком
  3. Объектно-ориентированное программирование (ООП)
  4. Библиотеки для обработки данных, такие как NumPy и pandas для Python
  5. Регулярное выражение
  6. Документация (как чтение, так и письмо)

4. Визуализация данных

Специалист по данным использует визуализацию для двух основных целей; Исследование и рассказывание историй. Что касается исследования данных, визуализация оказалась отличным инструментом для быстрого получения информации из ваших данных. Затем специалисты по обработке данных решают, как тестировать или предварительно обрабатывать данные в зависимости от полученной информации. Что касается повествования данных, визуализация может преобразовать тысячи или миллионы строк данных в простые для восприятия формы для вашей аудитории. Сами по себе эти два преимущества делают визуализацию отличным дополнением к вашему набору инструментов для анализа данных.

Концепции для освоения визуализации,

  1. Распространенные типы диаграмм (например, гистограмма, точечная диаграмма, линия, гистограмма)
  2. Расширенная визуализация данных (например, тепловая карта, карта, облако слов)
  3. Использование цвета
  4. Инструменты визуализации данных (Power BI, Tableau, библиотеки matplotlib / seaborn для Python, ggplot для R)
  5. Соотношение чернил и данных

5. Машинное обучение

Википедия определила машинное обучение как «научное исследование алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения конкретной задачи без использования явных инструкций, вместо этого полагаясь на шаблоны и логические выводы». Это определение прекрасно передает сложность и красоту машинного обучения.

На мой взгляд, машинное обучение в одиночку способствовало развитию аналитики данных и искусственного интеллекта. Кроме того, именно машинное обучение, скорее всего, является причиной существования этого блога; чтобы помочь огромному потоку учеников, пришедших в эту сферу после ажиотажа. Я говорю это в позитивном тоне, поскольку мы искренне верили, что каждый должен иметь некоторые знания в области науки о данных, независимо от области его знаний. Это связано с тем, что машинное обучение предоставляет средства для преобразования отрасли и нашего видения отрасли.

Кажется, весь ажиотаж возникает из-за машинного обучения. Тем не менее, я настоятельно рекомендую изучить основы, прежде чем погрузиться в машинное обучение.

Некоторые алгоритмы для начала:

  1. Линейная модель (линейная регрессия и логистическая регрессия)
  2. Машина опорных векторов (SVM)
  3. Деревья решений
  4. Нейронные сети

Это оно. Пять самых важных навыков профессионального специалиста по данным, описанные в сообщении в блоге. Если вы хотите повысить свою компетенцию в этом наборе навыков, перейдите к нашей публикации 15« Лучшие курсы для изучения науки о данных », где мы рекомендовали курсы для каждого из этих навыков.

Вы собираетесь сделать дополнительный шаг? Перейдите к нашему подробному руководству Как стать специалистом по данным в 2020 году, чтобы получить всю необходимую информацию.