Аналитические идеи от ведущих мировых специалистов по обработке и анализу данных о том, как стать профессионалом в области обработки данных в свободное время
Сегодня, пока я изучал опрос Kaggle по науке о данных 2018, для конкретной задачи, мой взгляд вдруг застрял на следующем графике анализа:
На приведенном выше графике показаны отзывы об опросе (проведенном в октябре 2018 г.) от почти 24 000 (точно 23 859) специалистов по обработке и анализу данных со всего мира. На этом графике вы увидите, как эти профессионалы стали мастерами в области науки о данных.
Если мы извлечем только следующие 3 критерия обучения науке о данных, которые любой желающий стать профессионалом в области науки о данных может попробовать в свое время, мы сможем увидеть общую вероятность получения опыта в искусстве науки о данных:
- Самоучки: 18 %
- Онлайн-курсы: 16 %
- Соревнования Kaggle: 6 %
При суммировании выше общего получается около 40%, что отлично подходит для кого-то, чтобы убедить, что они тоже могут следовать той же модели, чтобы получить опыт в науке о данных.
Итак, что вам просто нужно сделать:
- Присоединяйтесь к открытым онлайн-курсам по науке о данных и инженерии данных
- Читайте статьи, участвуйте в проектах GitHub, пишите собственные статьи, делитесь знаниями
- Начните участвовать в соревнованиях Kaggle в качестве команды (начните в одиночку, а затем либо сформируйте команду, либо присоединитесь к команде)
Где специалисты по науке о данных проводят большую часть своего рабочего времени:
Основываясь на анализе Business over Broadway того же анализа исследования данных, следующие графики предоставляют очень ценную информацию:
Основываясь на приведенном выше анализе, вы можете видеть, что различные специалисты по науке о данных тратят большую часть своего времени на следующие функции:
- Сбор данных
- Очистка данных
- Визуализация данных
- Построение модели/выбор модели
- Запуск модели машинного обучения в производство
- Поиск идей и передача их заинтересованным сторонам
- Другой
Углубившись в ту же аналитику, мы также можем увидеть, что более или почти 50% времени тратится на задачи инженерии данных, которые в основном:
- Сбор данных
- Очистка данных
- Визуализация данных
В то время как в другом майском 2019 г. опросе, опубликованном в журнале Analytics India Magzine, показано время, затраченное на опрос специалистов по науке о данных, график анализа выглядит следующим образом:
Из приведенного выше графика мы можем получить следующие показатели:
- Очистка и систематизация данных: 60 %
- Сбор данных: 19 %
- Моделирование и машинное обучение: 9 %
- Другое: 5 %
- Уточнение алгоритмов: 4 %
- Создание наборов данных для обучения: 3 %
Объединение анализа вместе:
- Применение самообучения, онлайн-классов и метода соревнований Kaggle — это то, что вы можете попробовать сами, чтобы стать профессионалом в области науки о данных.
- Большинство специалистов по науке о данных работают с данными, которые можно получить с различных открытых и общедоступных веб-сайтов из государственного и частного секторов.
@авкащаухан