Начало работы с инфраструктурой машинного обучения.

Инженерная инфраструктура - тема нехорошая, но очень важная. 20 лет назад это было прерогативой ИТ-отдела. Сегодня, когда облачные технологии получили широкое распространение, они доступны каждому.

Так почему же вам, специалисту по данным, это должно волновать вас? Разве недостаточно заботиться об очистке данных, изучении данных, моделировании данных и устранении предвзятости? Зачем добавлять еще одно целое поле в бесконечный список тем, за которыми нужно следить?

В этой статье мы рассмотрим, какие преимущества может дать вам знание инфраструктуры, в частности облачной инфраструктуры, как в профессиональной, так и в личной сфере.

Что такое инфраструктура?

Во-первых, инфраструктура в этом контексте - это облачная инфраструктура, которую можно использовать для создания и развертывания систем. Вспомните Heroku, Amazon Web Services (AWS), Google Cloud Platform (GCP), Microsoft Azure, Alibaba Cloud, DigitalOcean, Linode и т. Д. Все они предоставляют различную степень облачных сервисов, начиная с самых простых, вычислений и хранения, и заканчивая управляемыми блокчейнами и наземными станциями (для спутников).

Какое время быть в сфере технологий!

Как языки программирования, фреймворки и инструменты продолжают развиваться каждый день, так и инфраструктура, с помощью которой мы можем запускать все наши замечательные приложения!

Вы создали простое приложение для машинного обучения Flask и хотите его развернуть? Heroku позволит вам сделать это бесплатно :)

Вы хотите развернуть сервер, чтобы поиграть с ним и не беспокоиться о неожиданных счетах? DigitalOcean и Linode - лучший выбор!

Вы хотите запустить более сложные конвейеры обогащения данных и визуализировать их? AWS, GCP и Azure помогут вам!

Итак, у вас, Data Professional / Builder, есть множество возможностей. Мы расскажем, как начать бесплатно, в конце этой статьи.

Почему именно инфраструктура для профессионалов в области данных?

Все это прекрасно звучит! Но при чем здесь наука о данных?

В науке о данных есть множество различных и порой противоречащих друг другу определений. Для меня это искусство использования комбинации инструментов, в основе которых лежат данные, для создания идей и решения проблем.

Большинство решений для анализа данных являются частью веб-приложения или API. Эти веб-решения необходимо где-то размещать. Вы можете создать лучший в мире алгоритм распознавания объектов, но если он находится на вашем компьютере, он похож на купленную вами книгу, которая остается на книжном шкафу. Ни одна из этих ситуаций никому не приносит пользы.

Это не должно быть очень сложно. Как мы видели в предыдущем разделе, существует несколько типов облачных провайдеров, охватывающих широкий диапазон сценариев использования - от супер простых до чрезвычайно сложных.

Вы можете начать с использования Heroku для развертывания приложения. В этой статье рассказывается, как бесплатно развернуть приложение Flask на Heroku с помощью Heroku CLI.

Продолжают создаваться более простые решения. Streamlit, популярность которого возросла благодаря тому, что позволяет людям быстро создавать приложения для работы с данными, представила Streamlit Sharing, платформу, которая поможет вам развертывать, управлять и делиться своими приложениями Streamlit.

Эти возможности - отличный способ создавать побочные проекты и совершенствовать свои технические навыки.

С профессиональной точки зрения, узнав больше о том, какого облачного провайдера использует ваша компания, вы получите больше возможностей. Вы можете создавать лучшие приложения, зная о возможностях и ограничениях конкретных услуг, которые использует ваша компания. Или вы можете погрузиться в работу и заняться дополнительной работой, связанной с инфраструктурой.

Некоторые компании, такие как StitchFix, стремятся нанять универсалов - специалистов по обработке данных полного цикла, которые могут работать над проектом от концепции до производства.

С чего начать?

Есть много способов начать работу с облачной инфраструктурой. Многие из облачных провайдеров, о которых мы говорили ранее, позволяют вам начать работу бесплатно на своих платформах:

  • Heroku может использоваться для бессрочного размещения проекта бесплатно с некоторыми оговорками.
  • В AWS есть исправления: всегда бесплатные, бесплатные 12 месяцев и краткосрочные бесплатные пробные предложения.
  • GCP предоставляет 300 долларов в виде бесплатных кредитов и всегда бесплатные услуги с ежемесячными лимитами.
  • Azure предоставляет 12 месяцев бесплатных услуг с кредитом в 200 долларов и 25+ всегда бесплатных услуг.
  • Alibaba Cloud имеет бесплатную пробную версию, которая предоставляет более 50+ бесплатных продуктов, а также 20+ всегда бесплатных продуктов.

Никогда не было так просто раскрутить то, с чем вы хотите поэкспериментировать и получить опыт :)

Заключение

Область науки о данных продолжает развиваться и развиваться. Десять лет назад Data Scientist было названием, которое охватило все, теперь оно разделено на постоянно растущий список названий - инженеры данных, аналитики данных, инженеры по машинному обучению, ученые-исследователи и так далее. Каждая из этих ролей в той или иной степени полагается на инфраструктуру данных и должна знать ее для своего успеха.

Подпишитесь на нашу новостную рассылку Acing AI, если вам интересно:



Хотите узнать, как пройти собеседование по машинному обучению?