«Ученый по данным: человек, который лучше любого ученого объясняет значение аналитических результатов для бизнеса и лучше всех разбирается в аналитической науке, чем любой магистр делового администрирования». — д-р Дженнифер Пристли
Введение
Курсы по науке о данных есть везде, но к ним часто подходят с технической точки зрения. Эта статья знакомит вас с наукой о данных с нетехнической точки зрения, чтобы направить вас на правильный путь.
Образно говоря, наука о данных — это тонкий союз между прикладной статистикой и информатикой. Специалисты по данным используют комбинацию статистических методов и компьютерных алгоритмов, чтобы найти закономерности в наборах данных, а затем используют свои знания в предметной области, чтобы интерпретировать значение этих закономерностей и то, как они применимы к реальным ситуациям. Цель состоит в том, чтобы получить информацию для принятия решений.
Число людей, интересующихся областью науки о данных, значительно увеличилось за последние несколько лет благодаря многочисленным публикациям, таким как эта, о том, почему это самая сексуальная работа 21 века.
Цель этой статьи — направить читателей на верный путь, когда они вступят в мир науки о данных. В следующем разделе вы найдете обзор карьеры в Data Science.
Обзор карьеры в науке о данных
Прежде чем углубиться, давайте кратко рассмотрим основные причины, по которым люди выбирают карьеру в области науки о данных:
- Спрос на специалистов по данным высок
- Зарплата значительно лучше, чем у большинства работников
- Специалисты по данным обычно могут работать в любом месте или в любой отрасли мира.
- Из-за нехватки специалистов по обработке данных конкуренция минимальна, а поиск работы не составляет труда.
В отрасли науки о данных есть несколько различных ролей, в которые могут вписаться люди: эксперт по машинному обучению, эксперт по визуализации данных, специалист по данным и инженер данных — вот лишь некоторые из многих ролей, которые вы могли бы выполнять. В зависимости от вашего опыта работы и образования, получить одну роль будет проще, чем другую. Например, разработчику программного обеспечения было бы легче попасть на роль инженера данных.
Хотя карьера в науке о данных может быть интересной и доступной, потенциальные специалисты по данным должны подумать о повышении своих навыков в области статистики и программирования, прежде чем планировать свой следующий шаг. Теперь, когда у вас есть представление о том, что такое наука о данных и почему люди выбирают именно эту профессию, в следующем разделе вы познакомитесь с одним из основных компонентов машинного обучения — статистикой.
Статистика как требование для науки о данных
«Единственная уместная проверка правильности гипотезы — это сравнение ее предсказаний с опытом». — Милтон Фридман
Одной из предпосылок и основных компонентов машинного обучения является статистика. Статистика помогает понять основные концепции, которые позволяют функционировать искусственному интеллекту. Основа статистики имеет решающее значение для поиска идей, а также для получения выводов на основе данных. Концепции и методы статистики широко используются в аналитике данных для манипулирования данными.
Я перечислил несколько тем, которые вам нужно знать:
- Типы данных
- Население и выборка
- Вероятность
- Меры центральной тенденции
- Меры рассеивания
- Переменные и выбор переменных
- Различные типы дистрибутивов
- Центральная предельная теорема
- Проверка гипотезы
- Регрессия
В Интернете есть множество бесплатных ресурсов, которые помогут вам быстро освоить вышеперечисленные темы, поэтому посвятите некоторое время их изучению. В следующем разделе я также рассмотрю программирование как один из основных компонентов науки о данных.
Программирование как требование для науки о данных
Одной из интересных частей области науки о данных является машинное обучение, которое относится к набору методов, используемых специалистами по данным, которые позволяют компьютерам учиться на данных.
Кодирование требуется для реализации машинного обучения, и программисты, компетентные в реализации, будут хорошо понимать, как работают алгоритмы (модели), и легко оптимизируют эти алгоритмы.
Машинное обучение интересно тем, что цель состоит в том, чтобы научить компьютеры учиться самостоятельно.
Специалисты по данным обычно выбирают язык программирования для работы. Доступны пакеты, написанные на этом языке, чтобы вы могли легко выполнить работу.
Python — один из самых популярных языков программирования для науки о данных, и он поставляется с множеством пакетов и поддержкой сообщества, вряд ли вам нужно выполнить какой-либо проект по науке о данных, который вы не могли бы реализовать с помощью Python. Я рекомендую вам пойти дальше и изучить Python.
Другие языки программирования для науки о данных включают Julia, R, JavaScript, SQL и т. д.
Использование статистических методов и программирования для науки о данных будет неполным без знания предметной области, и я кратко расскажу об этом в следующем разделе.
Потребность в знании предметной области
Проще говоря, в этом контексте знание предметной области относится к общим фоновым знаниям об окружающей среде или области, к которой применяются методы науки о данных. Когда вы строите алгоритмы прогнозирования, понимание вашего набора данных имеет первостепенное значение.
Специалисты по данным тратят около 85 процентов своего времени на изучение и очистку данных. Это связано с тем, что понимание ваших данных может сэкономить вам много времени и ресурсов.
В большинстве случаев знание предметной области может не быть абсолютно необходимым, но оно дает вам определенное представление о ваших данных, что дает вам преимущество при моделировании.
Специалист по данным, обладающий знаниями в предметной области, может легко преобразовать эти знания в компьютерные программы и активные данные, что, в свою очередь, может преобразовать программу и обеспечить ее специализацию для конкретной области, что делает ее очень ценной для конечных пользователей.
Так, что дальше?
Никто не начал по-настоящему хорошо, мы постепенно учились на работе. Вы не должны сравнивать свое начало с кем-то, у кого уже есть 10-летний опыт, это будет несправедливо по отношению к вашему стремлению и тому, что вы строите. Дайте себе время вырасти.
Есть немало людей, у которых нет страсти к работе с данными, но в итоге они делают карьеру в науке о данных.
Приступайте к работе, присоединяйтесь к онлайн-сообществам специалистов по данным и специалистам по машинному обучению, таким как Kaggle, начните с заданий для начинающих и масштабируйте процесс обучения, создавайте, развертывайте и получайте отзывы!
Воспользуйтесь преимуществами предсказательной силы моделей машинного обучения, развернув их. Это один из самых важных шагов с точки зрения бизнеса, но и наименее изученный.
Вот и все, счастливого обучения.
Если вы сочтете эту информацию полезной, не стесняйтесь поделиться ею, чтобы другие начинающие специалисты по данным также могли извлечь пользу.
Если у вас есть какие-либо вопросы, обращайтесь!
Свяжитесь со мной в Twitter или LinkedIn!