Поддерживайте актуальность своих навыков с помощью свежих наборов данных

Как специалисты по данным, мы должны быть в курсе наших навыков разработчика, даже если мы не являемся разработчиками. В своей повседневной деятельности я возглавляю довольно много специалистов по данным. Эти разработчики зависят от меня, чтобы управлять стратегическим направлением наших усилий в поддержку бизнеса, который мы поддерживаем. Чтобы убедиться, что я могу внести свой вклад в формирование наших решений, мне нужно понять, как применять науку о данных на техническом уровне. Мне нужно уметь говорить на словах, так сказать 😊

Один из отличных способов не отставать от своих навыков — разрабатывать собственные проекты по науке о данных. Но нет ничего, что раздражало бы меня больше, чем работа с готовыми наборами данных, которые были предварительно спроектированы так, чтобы хорошо вписываться в модели машинного обучения.

Почему?

Потому что эти предварительно сконструированные наборы данных позволяют нам отказаться от некоторых из наиболее важных навыков работы с данными. А именно, инженерия данных. Таким образом, мне нравится искать свои собственные данные, проектировать эти данные так, чтобы они были машиночитаемыми, а затем использовать преимущества алгоритмов машинного обучения, которые я пытаюсь изучить.

Следствием создания проектов, подобных этому, является то, что я сохраняю свои навыки работы с данными, возможно, даже немного расширяю их, собирая данные из новых источников (например, веб-скрейпинг, вызовы API и т. д.), и у меня есть уникальные проекты.

Уникальность важна по двум причинам, когда речь идет о проектах. Во-первых, когда я добавляю их в свое портфолио, они с большей вероятностью привлекут внимание, поскольку они просто не такие, как некоторые из более размытых руководств, которые мы часто находим. И, во-вторых, они могут быть более полезными, потому что они созданы для использования реальных, часто живых данных. В результате эти портфельные проекты продолжают улучшать мою видимость в сообществе, ориентированном на данные.

Но найти открытые и свободно доступные данные не всегда просто. Это также подводит меня к следующему вопросу, на который я хочу помочь ответить.

Вы изо всех сил пытаетесь понять, какие данные могут помочь вашему бизнесу?

Исследователи данных, которые ищут бесплатные, но уникальные данные, — это одно, а компании, которые ищут бесплатные и открытые данные, которые также могут помочь их бизнесу, — это тесно связанная, но более конкретная проблема.

Независимо от того, развиваете ли вы свою карьеру или свой бизнес, понимание того, какие данные доступны, и своевременность их доступности являются важными факторами, которые следует учитывать.

Доступность и своевременность:

Сказать, что существует масса данных, доступных бесплатно в Интернете, было бы преуменьшением. Действительно, доступность бесплатных данных огромна. Однако проблема заключается в том, что большая часть этих данных либо агрегируется, чтобы иметь отношение к конкретной бизнес-цели, и/или данные обновляются недостаточно часто, чтобы быть полезными в настоящее время.

Таким образом, мы должны проделать тяжелую работу по курированию наших собственных конвейеров данных из существующих источников, которые дают нам доступ к актуальной информации.

УНИКАЛЬНЫЕ ОТКРЫТЫЕ ИСТОЧНИКИ ДАННЫХ

Вот лишь несколько идей для поиска данных, которые являются бесплатными, актуальными и могут быть полезны при рассмотрении вашего следующего портфолио проекта по науке о данных или при рассмотрении данных, которые могут иметь непосредственное отношение к потребностям вашего бизнеса:

- Ваш адрес электронной почты для получения информационных бюллетеней от конкурентов, оповещений о новостях Google по определенным темам или любой другой информации, на получение которой вы подписались и которая была отправлена ​​на вашу учетную запись электронной почты.

- Yelp Fusion API (доступ к бизнес-данным с 5000 бесплатных вызовов API каждый день)

- USPTO Patent API (бесплатный доступ к патентным данным для USPTO)

- Census.gov API (не обязательно своевременный, но свободно доступный и по-прежнему полезный для определенных бизнес-потребностей)

- API Spotify (да, тот самый Spotify! Кто не любит музыку, верно? API имеет ограничение скорости, но может быть полезен для получения данных о последних

- Reddit API (парадная дверь в интернет, верно?)

- Zillow API (данные о недвижимости)

- Weather.com API (данные о погоде)

Итак, в заключение, оперативные данные отлично подходят для самых полезных бизнес-данных, которые могут помочь расширить еще более полезные портфолио науки о данных и внести вклад в мощную бизнес-аналитику. Поскольку большинство этих источников полагаются на API, важно отметить, что у API есть некоторые недостатки. Самым большим недостатком является то, что API-интерфейсы поддерживаются кем-то другим, поэтому ваша способность продолжать использовать указанные API-интерфейсы зависит от решения компании предоставить вам доступ.

Хотите узнать о науке о данных, карьерном росте, жизни или неправильных бизнес-решениях? Подпишитесь на мою рассылку здесь и получите ссылку на мою бесплатную электронную книгу.