«Ученый по данным: человек, который лучше любого ученого объясняет значение аналитических результатов для бизнеса и лучше всех разбирается в аналитической науке, чем любой магистр делового администрирования». — д-р Дженнифер Пристли

Введение

Курсы по науке о данных есть везде, но к ним часто подходят с технической точки зрения. Эта статья знакомит вас с наукой о данных с нетехнической точки зрения, чтобы направить вас на правильный путь.

Образно говоря, наука о данных — это тонкий союз между прикладной статистикой и информатикой. Специалисты по данным используют комбинацию статистических методов и компьютерных алгоритмов, чтобы найти закономерности в наборах данных, а затем используют свои знания в предметной области, чтобы интерпретировать значение этих закономерностей и то, как они применимы к реальным ситуациям. Цель состоит в том, чтобы получить информацию для принятия решений.

Число людей, интересующихся областью науки о данных, значительно увеличилось за последние несколько лет благодаря многочисленным публикациям, таким как эта, о том, почему это самая сексуальная работа 21 века.

Цель этой статьи — направить читателей на верный путь, когда они вступят в мир науки о данных. В следующем разделе вы найдете обзор карьеры в Data Science.

Обзор карьеры в науке о данных

Прежде чем углубиться, давайте кратко рассмотрим основные причины, по которым люди выбирают карьеру в области науки о данных:

  • Спрос на специалистов по данным высок
  • Зарплата значительно лучше, чем у большинства работников
  • Специалисты по данным обычно могут работать в любом месте или в любой отрасли мира.
  • Из-за нехватки специалистов по обработке данных конкуренция минимальна, а поиск работы не составляет труда.

В отрасли науки о данных есть несколько различных ролей, в которые могут вписаться люди: эксперт по машинному обучению, эксперт по визуализации данных, специалист по данным и инженер данных — вот лишь некоторые из многих ролей, которые вы могли бы выполнять. В зависимости от вашего опыта работы и образования, получить одну роль будет проще, чем другую. Например, разработчику программного обеспечения было бы легче попасть на роль инженера данных.

Хотя карьера в науке о данных может быть интересной и доступной, потенциальные специалисты по данным должны подумать о повышении своих навыков в области статистики и программирования, прежде чем планировать свой следующий шаг. Теперь, когда у вас есть представление о том, что такое наука о данных и почему люди выбирают именно эту профессию, в следующем разделе вы познакомитесь с одним из основных компонентов машинного обучения — статистикой.

Статистика как требование для науки о данных

«Единственная уместная проверка правильности гипотезы — это сравнение ее предсказаний с опытом». — Милтон Фридман

Одной из предпосылок и основных компонентов машинного обучения является статистика. Статистика помогает понять основные концепции, которые позволяют функционировать искусственному интеллекту. Основа статистики имеет решающее значение для поиска идей, а также для получения выводов на основе данных. Концепции и методы статистики широко используются в аналитике данных для манипулирования данными.

Я перечислил несколько тем, которые вам нужно знать:

  • Типы данных
  • Население и выборка
  • Вероятность
  • Меры центральной тенденции
  • Меры рассеивания
  • Переменные и выбор переменных
  • Различные типы дистрибутивов
  • Центральная предельная теорема
  • Проверка гипотезы
  • Регрессия

В Интернете есть множество бесплатных ресурсов, которые помогут вам быстро освоить вышеперечисленные темы, поэтому посвятите некоторое время их изучению. В следующем разделе я также рассмотрю программирование как один из основных компонентов науки о данных.

Программирование как требование для науки о данных

Одной из интересных частей области науки о данных является машинное обучение, которое относится к набору методов, используемых специалистами по данным, которые позволяют компьютерам учиться на данных.

Кодирование требуется для реализации машинного обучения, и программисты, компетентные в реализации, будут хорошо понимать, как работают алгоритмы (модели), и легко оптимизируют эти алгоритмы.

Машинное обучение интересно тем, что цель состоит в том, чтобы научить компьютеры учиться самостоятельно.

Специалисты по данным обычно выбирают язык программирования для работы. Доступны пакеты, написанные на этом языке, чтобы вы могли легко выполнить работу.

Python — один из самых популярных языков программирования для науки о данных, и он поставляется с множеством пакетов и поддержкой сообщества, вряд ли вам нужно выполнить какой-либо проект по науке о данных, который вы не могли бы реализовать с помощью Python. Я рекомендую вам пойти дальше и изучить Python.

Другие языки программирования для науки о данных включают Julia, R, JavaScript, SQL и т. д.

Использование статистических методов и программирования для науки о данных будет неполным без знания предметной области, и я кратко расскажу об этом в следующем разделе.

Потребность в знании предметной области

Проще говоря, в этом контексте знание предметной области относится к общим фоновым знаниям об окружающей среде или области, к которой применяются методы науки о данных. Когда вы строите алгоритмы прогнозирования, понимание вашего набора данных имеет первостепенное значение.

Специалисты по данным тратят около 85 процентов своего времени на изучение и очистку данных. Это связано с тем, что понимание ваших данных может сэкономить вам много времени и ресурсов.

В большинстве случаев знание предметной области может не быть абсолютно необходимым, но оно дает вам определенное представление о ваших данных, что дает вам преимущество при моделировании.

Специалист по данным, обладающий знаниями в предметной области, может легко преобразовать эти знания в компьютерные программы и активные данные, что, в свою очередь, может преобразовать программу и обеспечить ее специализацию для конкретной области, что делает ее очень ценной для конечных пользователей.

Так, что дальше?

Никто не начал по-настоящему хорошо, мы постепенно учились на работе. Вы не должны сравнивать свое начало с кем-то, у кого уже есть 10-летний опыт, это будет несправедливо по отношению к вашему стремлению и тому, что вы строите. Дайте себе время вырасти.

Есть немало людей, у которых нет страсти к работе с данными, но в итоге они делают карьеру в науке о данных.

Приступайте к работе, присоединяйтесь к онлайн-сообществам специалистов по данным и специалистам по машинному обучению, таким как Kaggle, начните с заданий для начинающих и масштабируйте процесс обучения, создавайте, развертывайте и получайте отзывы!

Воспользуйтесь преимуществами предсказательной силы моделей машинного обучения, развернув их. Это один из самых важных шагов с точки зрения бизнеса, но и наименее изученный.

Вот и все, счастливого обучения.

Если вы сочтете эту информацию полезной, не стесняйтесь поделиться ею, чтобы другие начинающие специалисты по данным также могли извлечь пользу.

Если у вас есть какие-либо вопросы, обращайтесь!

Свяжитесь со мной в Twitter или LinkedIn!