Работа специалистом по данным считается самой сексуальной работой 21 века и не без оснований. В Linkedin Отчеты о новых вакансиях за 2020 год искусственный интеллект был назван Рабочими местами завтрашнего дня из-за его широкого присутствия. Кроме того, потенциальное применение науки о данных во многих отраслях привлекло в эту область людей самого разного уровня подготовки. Здесь я представляю 5 самых важных навыков специалиста по данным, которые необходимы для их работы в области науки о данных.
Навыки науки о данных
1. Вероятность и статистика
Вероятность и статистика - два тесно связанных математических понятия. Вы не можете полностью понять одно без другого, и они идут рука об руку, чтобы вооружить вас методами работы с данными. Зная, что нет специалиста по обработке данных без данных, эти два навыка составляют вашу самую фундаментальную предпосылку.
Некоторые из соответствующих концепций, с которыми вы должны быть знакомы;
- Случайные переменные
- Основная и условная вероятность
- Распределение вероятностей
- Методы отбора проб
- Мера центральной тенденции, изменчивости и доверительного интервала
- Проверка гипотезы
- Центральная предельная теорема
- Экспериментальная дизайн
2. Исчисление и линейная алгебра
Еще две математические концепции, которые необходимы профессиональному специалисту по анализу данных. Исчисление и линейная алгебра являются основой большинства, если не всех, алгоритмов машинного обучения. Следовательно, для понимания этих алгоритмов необходимы сильные технические знания в обеих концепциях. Общее понимание этого может быть достаточным, поскольку доступны библиотеки, которые выполняют эти математические операции под капотами.
Опять же, некоторые из наиболее актуальных концепций для науки о данных;
- Однофакторное и многовариантное исчисление
- Производная и интеграция
- Векторное пространство
- Скалярное произведение
- Собственные векторы
3. Программирование
Пожалуй, самый важный навык специалиста по данным. Помимо знаний для работы с данными, специалистам по обработке данных необходимо иметь инструменты и навыки для преобразования своих теоретических знаний в практическую реализацию. Обычно это делается с использованием той или иной формы программирования, и, следовательно, программирование стало одним из востребованных навыков специалиста по данным.
Для начала я настоятельно рекомендую изучить Python как ваш первый язык программирования. Python легко читать, писать, понимать и имеет наиболее полную поддержку для работы с аналитикой данных. Вы редко ошибетесь, выбрав Python в качестве основного языка программирования.
Еще один популярный язык программирования для науки о данных - статистики, широко использующие R.R. для анализа данных. Однако это не язык программирования общего назначения, такой как Python.
Независимо от языка, ниже приведены некоторые приемы программирования, которые вам необходимо знать;
- Базовый синтаксис, функции, ввод / вывод
- Заявление об управлении потоком
- Объектно-ориентированное программирование (ООП)
- Библиотеки для обработки данных, такие как NumPy и pandas для Python
- Регулярное выражение
- Документация (как чтение, так и письмо)
4. Визуализация данных
Специалист по данным использует визуализацию для двух основных целей; Исследование и рассказывание историй. Что касается исследования данных, визуализация оказалась отличным инструментом для быстрого получения информации из ваших данных. Затем специалисты по обработке данных решают, как тестировать или предварительно обрабатывать данные в зависимости от полученной информации. Что касается повествования данных, визуализация может преобразовать тысячи или миллионы строк данных в простые для восприятия формы для вашей аудитории. Сами по себе эти два преимущества делают визуализацию отличным дополнением к вашему набору инструментов для анализа данных.
Концепции для освоения визуализации,
- Распространенные типы диаграмм (например, гистограмма, точечная диаграмма, линия, гистограмма)
- Расширенная визуализация данных (например, тепловая карта, карта, облако слов)
- Использование цвета
- Инструменты визуализации данных (Power BI, Tableau, библиотеки matplotlib / seaborn для Python, ggplot для R)
- Соотношение чернил и данных
5. Машинное обучение
Википедия определила машинное обучение как «научное исследование алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения конкретной задачи без использования явных инструкций, вместо этого полагаясь на шаблоны и логические выводы». Это определение прекрасно передает сложность и красоту машинного обучения.
На мой взгляд, машинное обучение в одиночку способствовало развитию аналитики данных и искусственного интеллекта. Кроме того, именно машинное обучение, скорее всего, является причиной существования этого блога; чтобы помочь огромному потоку учеников, пришедших в эту сферу после ажиотажа. Я говорю это в позитивном тоне, поскольку мы искренне верили, что каждый должен иметь некоторые знания в области науки о данных, независимо от области его знаний. Это связано с тем, что машинное обучение предоставляет средства для преобразования отрасли и нашего видения отрасли.
Кажется, весь ажиотаж возникает из-за машинного обучения. Тем не менее, я настоятельно рекомендую изучить основы, прежде чем погрузиться в машинное обучение.
Некоторые алгоритмы для начала:
- Линейная модель (линейная регрессия и логистическая регрессия)
- Машина опорных векторов (SVM)
- Деревья решений
- Нейронные сети
Это оно. Пять самых важных навыков профессионального специалиста по данным, описанные в сообщении в блоге. Если вы хотите повысить свою компетенцию в этом наборе навыков, перейдите к нашей публикации 15« Лучшие курсы для изучения науки о данных », где мы рекомендовали курсы для каждого из этих навыков.
Вы собираетесь сделать дополнительный шаг? Перейдите к нашему подробному руководству Как стать специалистом по данным в 2020 году, чтобы получить всю необходимую информацию.