Поддерживайте актуальность своих навыков с помощью свежих наборов данных
Как специалисты по данным, мы должны быть в курсе наших навыков разработчика, даже если мы не являемся разработчиками. В своей повседневной деятельности я возглавляю довольно много специалистов по данным. Эти разработчики зависят от меня, чтобы управлять стратегическим направлением наших усилий в поддержку бизнеса, который мы поддерживаем. Чтобы убедиться, что я могу внести свой вклад в формирование наших решений, мне нужно понять, как применять науку о данных на техническом уровне. Мне нужно уметь говорить на словах, так сказать 😊
Один из отличных способов не отставать от своих навыков — разрабатывать собственные проекты по науке о данных. Но нет ничего, что раздражало бы меня больше, чем работа с готовыми наборами данных, которые были предварительно спроектированы так, чтобы хорошо вписываться в модели машинного обучения.
Почему?
Потому что эти предварительно сконструированные наборы данных позволяют нам отказаться от некоторых из наиболее важных навыков работы с данными. А именно, инженерия данных. Таким образом, мне нравится искать свои собственные данные, проектировать эти данные так, чтобы они были машиночитаемыми, а затем использовать преимущества алгоритмов машинного обучения, которые я пытаюсь изучить.
Следствием создания проектов, подобных этому, является то, что я сохраняю свои навыки работы с данными, возможно, даже немного расширяю их, собирая данные из новых источников (например, веб-скрейпинг, вызовы API и т. д.), и у меня есть уникальные проекты.
Уникальность важна по двум причинам, когда речь идет о проектах. Во-первых, когда я добавляю их в свое портфолио, они с большей вероятностью привлекут внимание, поскольку они просто не такие, как некоторые из более размытых руководств, которые мы часто находим. И, во-вторых, они могут быть более полезными, потому что они созданы для использования реальных, часто живых данных. В результате эти портфельные проекты продолжают улучшать мою видимость в сообществе, ориентированном на данные.
Но найти открытые и свободно доступные данные не всегда просто. Это также подводит меня к следующему вопросу, на который я хочу помочь ответить.
Вы изо всех сил пытаетесь понять, какие данные могут помочь вашему бизнесу?
Исследователи данных, которые ищут бесплатные, но уникальные данные, — это одно, а компании, которые ищут бесплатные и открытые данные, которые также могут помочь их бизнесу, — это тесно связанная, но более конкретная проблема.
Независимо от того, развиваете ли вы свою карьеру или свой бизнес, понимание того, какие данные доступны, и своевременность их доступности являются важными факторами, которые следует учитывать.
Доступность и своевременность:
Сказать, что существует масса данных, доступных бесплатно в Интернете, было бы преуменьшением. Действительно, доступность бесплатных данных огромна. Однако проблема заключается в том, что большая часть этих данных либо агрегируется, чтобы иметь отношение к конкретной бизнес-цели, и/или данные обновляются недостаточно часто, чтобы быть полезными в настоящее время.
Таким образом, мы должны проделать тяжелую работу по курированию наших собственных конвейеров данных из существующих источников, которые дают нам доступ к актуальной информации.
УНИКАЛЬНЫЕ ОТКРЫТЫЕ ИСТОЧНИКИ ДАННЫХ
Вот лишь несколько идей для поиска данных, которые являются бесплатными, актуальными и могут быть полезны при рассмотрении вашего следующего портфолио проекта по науке о данных или при рассмотрении данных, которые могут иметь непосредственное отношение к потребностям вашего бизнеса:
- Ваш адрес электронной почты для получения информационных бюллетеней от конкурентов, оповещений о новостях Google по определенным темам или любой другой информации, на получение которой вы подписались и которая была отправлена на вашу учетную запись электронной почты.
- Yelp Fusion API (доступ к бизнес-данным с 5000 бесплатных вызовов API каждый день)
- USPTO Patent API (бесплатный доступ к патентным данным для USPTO)
- Census.gov API (не обязательно своевременный, но свободно доступный и по-прежнему полезный для определенных бизнес-потребностей)
- API Spotify (да, тот самый Spotify! Кто не любит музыку, верно? API имеет ограничение скорости, но может быть полезен для получения данных о последних
- Reddit API (парадная дверь в интернет, верно?)
- Zillow API (данные о недвижимости)
- Weather.com API (данные о погоде)
Итак, в заключение, оперативные данные отлично подходят для самых полезных бизнес-данных, которые могут помочь расширить еще более полезные портфолио науки о данных и внести вклад в мощную бизнес-аналитику. Поскольку большинство этих источников полагаются на API, важно отметить, что у API есть некоторые недостатки. Самым большим недостатком является то, что API-интерфейсы поддерживаются кем-то другим, поэтому ваша способность продолжать использовать указанные API-интерфейсы зависит от решения компании предоставить вам доступ.
Хотите узнать о науке о данных, карьерном росте, жизни или неправильных бизнес-решениях? Подпишитесь на мою рассылку здесь и получите ссылку на мою бесплатную электронную книгу.