Аналитические идеи от ведущих мировых специалистов по обработке и анализу данных о том, как стать профессионалом в области обработки данных в свободное время

Сегодня, пока я изучал опрос Kaggle по науке о данных 2018, для конкретной задачи, мой взгляд вдруг застрял на следующем графике анализа:

На приведенном выше графике показаны отзывы об опросе (проведенном в октябре 2018 г.) от почти 24 000 (точно 23 859) специалистов по обработке и анализу данных со всего мира. На этом графике вы увидите, как эти профессионалы стали мастерами в области науки о данных.

Если мы извлечем только следующие 3 критерия обучения науке о данных, которые любой желающий стать профессионалом в области науки о данных может попробовать в свое время, мы сможем увидеть общую вероятность получения опыта в искусстве науки о данных:

  1. Самоучки: 18 %
  2. Онлайн-курсы: 16 %
  3. Соревнования Kaggle: 6 %

При суммировании выше общего получается около 40%, что отлично подходит для кого-то, чтобы убедить, что они тоже могут следовать той же модели, чтобы получить опыт в науке о данных.

Итак, что вам просто нужно сделать:

  • Присоединяйтесь к открытым онлайн-курсам по науке о данных и инженерии данных
  • Читайте статьи, участвуйте в проектах GitHub, пишите собственные статьи, делитесь знаниями
  • Начните участвовать в соревнованиях Kaggle в качестве команды (начните в одиночку, а затем либо сформируйте команду, либо присоединитесь к команде)

Где специалисты по науке о данных проводят большую часть своего рабочего времени:

Основываясь на анализе Business over Broadway того же анализа исследования данных, следующие графики предоставляют очень ценную информацию:

Основываясь на приведенном выше анализе, вы можете видеть, что различные специалисты по науке о данных тратят большую часть своего времени на следующие функции:

  1. Сбор данных
  2. Очистка данных
  3. Визуализация данных
  4. Построение модели/выбор модели
  5. Запуск модели машинного обучения в производство
  6. Поиск идей и передача их заинтересованным сторонам
  7. Другой

Углубившись в ту же аналитику, мы также можем увидеть, что более или почти 50% времени тратится на задачи инженерии данных, которые в основном:

  • Сбор данных
  • Очистка данных
  • Визуализация данных

В то время как в другом майском 2019 г. опросе, опубликованном в журнале Analytics India Magzine, показано время, затраченное на опрос специалистов по науке о данных, график анализа выглядит следующим образом:

Из приведенного выше графика мы можем получить следующие показатели:

  1. Очистка и систематизация данных: 60 %
  2. Сбор данных: 19 %
  3. Моделирование и машинное обучение: 9 %
  4. Другое: 5 %
  5. Уточнение алгоритмов: 4 %
  6. Создание наборов данных для обучения: 3 %

Объединение анализа вместе:

  • Применение самообучения, онлайн-классов и метода соревнований Kaggle — это то, что вы можете попробовать сами, чтобы стать профессионалом в области науки о данных.
  • Большинство специалистов по науке о данных работают с данными, которые можно получить с различных открытых и общедоступных веб-сайтов из государственного и частного секторов.

@авкащаухан