Пирамидальный подход к AWS Data Analytics

Обзор
В настоящее время мы производим данные каждую секунду. По словам Домо, данные никогда не спят. Каждый день создается 2,5 квинтиллиона байтов данных; однако эти значения быстро меняются день ото дня. Я хотел бы подчеркнуть, что рост скорее экспоненциальный, чем линейный, что ставит новые задачи и новые бизнес-стратегии в мире технологий, где крупнейшие организации будут заниматься поиском решения для аналитики данных.

В своем предыдущем блоге я объяснил, как собирать и преобразовывать данные, расположенные в разных аккаунтах AWS и регионах. Однако часто корпоративная компания хранит данные повсюду, а не только в облаке. Один из наиболее частых вопросов, которые я получаю от клиентов:

Какие сервисы AWS соответствуют моим требованиям, чтобы улучшить мой опыт работы с аналитикой данных? Итак, здесь я хотел бы показать вам модель данных, представленную в пирамиде, которая может быть полезной и предоставить результаты, которые вы ищете. . Я хотел бы назвать это моделью данных пирамиды AWS, поскольку она ориентирована только на сервисы AWS. AWS предлагает полный набор сервисов для решения этой проблемы для получения, хранения и анализа данных практически всех типов масштабов и форматов. Пирамида иллюстрирует иерархические отношения между данными и системами. Каждый уровень представляет собой отдельный рабочий процесс в процессе разработки. V

Давайте изучим каждый слой по очереди, начиная с нижней части пирамиды.

№1. Сбор данных от производителя данных.
Данные могут быть собраны из информации, которой мы делимся в социальных сетях, приложений, которые вы храните в своем центре обработки данных, приложений, которые вы храните в облаке, с вашего устройства, Интернета или Вещи (IoT), финансовые транзакции, события веб-сайтов, события приложений, события базы данных и т. Д. У каждого поставщика облачных услуг есть разные стратегии сбора и анализа данных. Позвольте мне показать вам, как собирать данные на AWS.

В общем, данные могут поступать в виде потока или пакетами. Например, давайте рассмотрим случай потоковой передачи с использованием Amazon Kinesis Stream. Он принимает данные от производителей потоковых данных в любом формате и масштабе, затем данные можно собирать, установив агент Kinesis (AWS API или API, написанный вами), а возможность приема данных зависит от того, сколько шардов вы создаете. В зависимости от объема имеющихся данных вы можете динамически увеличивать количество сегментов.

№2. Формирование озера (хранилище данных)
Мы живем в эпоху больших данных, и стало сложно управлять огромными объемами разнородных данных в вашем собственном центре обработки данных, поскольку это требует как трудозатрат, так и затрат. интенсивный. Многие корпоративные компании хотят перенести свои данные в облако, но им сложно найти хорошее, безопасное и экономичное решение. В AWS есть множество альтернатив для хранения ваших данных в любом формате. Для структурированных данных лучшим вариантом является традиционная реляционная база данных, тогда как базы данных noSQL предпочтительнее для хранения таких данных, как журналы, текст, изображения и видео. Для статических файлов рекомендуются корзины Amazon s3, что позволяет не ограничивать количество объектов; для резервного копирования и архивирования можно использовать резервное копирование AWS.

№3. Аналитика и визуализация
Данные представляют собой один из самых ценных активов для любой компании. Поэтому важно понять, что может дать анализ данных, поскольку он может повлиять на принятие стратегических решений. Это может обеспечить более эффективное и действенное управление работой, выявление потребностей клиентов и понимание проблем, с которыми сталкивается организация. Большинство поставщиков облачных услуг вкладывают средства в аналитику, чтобы помочь клиентам автоматизировать процесс анализа своих данные в безопасном виде и сэкономить на некоторых расходах. Однако большинство услуг еще не созрели. В AWS очень много сервисов, связанных с аналитикой. Я выбрал некоторые из них, в которых можно использовать эти услуги, исходя из потребностей клиентов.

AWS Glue - это бессерверный сервис ETL AWS, поэтому вы можете сосредоточиться только на организации, очистке, проверке и форматировании данных. Вы можете создать собственный конвейер рабочего процесса, включающий все действия, необходимые для обработки ваших данных. Вы можете иметь несколько компонентов, последовательно или параллельно работающих в конвейере, и отслеживать состояние каждого элемента. Некоторые из важных компонентов конвейера данных:

Сканер позволяет подключаться к сегментам s3 и извлекать данные из вашей конкретной папки, затем создавать таблицу метаданных в каталоге данных и легко сохранять в разделы. Сканер также может классифицировать или идентифицировать различные типы данных на основе формата, такого как json, csv, grok, xml и пользовательские форматы.

Триггер позволяет запускать определенное действие в определенное время.

Работа позволяет преобразовывать и загружать данные в ваши любимые форматы; вы можете преобразовать данные с помощью Spark или Python.

Amazon Athena - это бессерверный сервис, который позволяет анализировать различные типы данных, такие как неструктурированные, полуструктурированные и структурированные данные с помощью SQL. Вы можете создавать сложные запросы для своего набора данных, чтобы получить желаемые результаты. Данные могут находиться в корзине s3 или других подключениях, таких как CloudWatch, Redshift, DynamoDB, MySQL и т. Д. Для извлечения данных из некоторых местоположений необходимо установить подключение, которое может выполняться разными способами:

Athena использует каталог данных Amazon Glue для хранения метаданных для связи с данными, хранящимися в корзине s3.
Athena использует лямбда-функцию для связи с данными, хранящимися в других службах, перечисленных ниже.

Вы также можете использовать Amazon Redshift, управляемое хранилище данных сервиса, которое позволяет анализировать структурированные данные. Amazon Redshift также извлекает данные из разных источников с помощью JDBC и ODBC. (В отличие от Athena, которым управляет AWS, поэтому вам не нужно беспокоиться о вычислениях.) Redshift должен управляться вами: чем больше данных вам нужно анализировать, тем больше вычислительных узлов вам нужно, поэтому вы можете увеличить вычислительные ресурсы. ресурсы в зависимости от ваших потребностей. Amazon Redshift позволяет запрашивать данные в корзинах s3, но это очень дорого. Я предлагаю вам использовать в этом случае Афину; однако Redshift - лучший сервис для использования, если вы хотите иметь массовую параллельную обработку, лучшую производительность и масштабируемость.

Amazon EMR также является управляемым сервисом в AWS, который помогает извлекать, преобразовывать и загружать данные, а также позволяет анализировать большие данные с помощью Spark или Hadoop.

Amazon Kinesis Analytics используется для потоковой аналитики в реальном времени, позволяя обрабатывать данные с помощью SQL, чтобы можно было выполнять запросы непрерывно.

AWS Lake Formation - еще один вариант. Мы все озабочены защитой данных. Вы можете спросить: зашифрованы ли мои данные? Применяются ли правильные средства управления доступом? Кто может получить доступ к моим данным? Есть ли у меня мониторинг активности на случай, если что-то случится? Lake Formation - это правильный сервис, который поможет вам создать безопасное озеро данных, позволяющее безопасно управлять и поддерживать потоки данных, хранение и контроль доступа.

Amazon Elasticsearch Service подходит для оперативной аналитики для всех типов данных, включая журналы, метрики, приложения, веб, базы данных, инфраструктуру и т. Д. Этот сервис интегрирован с Kibana, что позволяет создавать информационные панели и иметь хорошую визуализацию данные, которые помогают выполнять различные виды исследований. Если вы также хотите иметь визуализацию данных с помощью линейных графиков, диаграмм, линий, чисел, карт и т. Д. AWS запустила для этого сервис под названием Amazon Quicksight. Эта услуга позволяет создавать индивидуальные, стратегические аналитические, операционные или информационные информационные панели.

№4. Прогнозная аналитика и машинное обучение (ML)
В современную эпоху цифровой экономики сценариев использования машинного обучения очень много, хотя большинство современных систем еще недостаточно развиты. Однако многие предприятия обнаружили высокий потенциал в различных отраслях, таких как здравоохранение, финансы, фармацевтика, энергетика и т. Д. Машинное обучение использует комбинацию систем и алгоритмов для прогнозирования или принятия решений с минимальным вмешательством человека на основе данных и автоматизированного повторяющегося обучения. Проще говоря, система машинного обучения способна учиться на вводимых данных, чтобы получить желаемые результаты. Amazon SageMaker - один из самых мощных сервисов машинного обучения, запущенных AWS. Не беспокоясь о базовой технологии, вы можете сосредоточиться на создании, обучении и развертывании модели машинного обучения. Он предоставляет вам Jupyter Notebook на основе языка Python. Рабочий процесс очень прост: вы можете получить входные данные из корзины s3, а затем начать работать с этими данными, создавая проверку модели, стимуляцию и, в конце концов, развернуть, чтобы получить желаемый анализ. Sagemaker Ground Truth позволяет создавать наборы обучающих данных для машинного обучения. Он маркирует ваш контент, расположенный в ведре s3, работая с людьми-этикетировщиками.

# 5 Искусственный интеллект (ИИ)
ИИ находится на вершине пирамиды. Это, наверное, самая большая футуристическая разработка на данный момент. Сегодня он стал более популярным из-за увеличения объемов данных, усовершенствованных алгоритмов, увеличения мощности компьютера и хранилища. ИИ быстро развивается, приобретая человеческие характеристики. Как люди, мы удивительно способны трансформировать нашу жизнь и управлять ею, но мы также хотим понять, как ИИ можно интегрировать в человеческий опыт. ИИ получает последовательный прогноз взаимодействия с человеком на его естественном языке. AWS предлагает множество услуг, и все они основаны на технологиях глубокого обучения, таких как анализ зрения, речи, текста, аудио и видео, чат-боты, персонализация и прогноз. Вы можете создать приложение и интегрировать их вместе. Например, в одном из своих предыдущих блогов я рассказал как преобразовать текст в речь. Эти сервисы так легко интегрировать. Вы можете интегрировать столько сервисов, сколько вам нужно. Чаще всего эти службы могут имитировать разумное поведение человека. Иногда возникает путаница в различиях между AI и ML. Все машинное обучение в AWS связано с Sagemaker. Это позволяет машинам учиться на себе. AI, с другой стороны, может выполнять задачи, аналогичные людям.

Заключение
Сказав все это, есть много способов проанализировать ваши данные в любом формате и масштабе. Разнообразные сервисы позволяют собирать, преобразовывать и классифицировать данные и делать их доступными для машинного обучения. Искусственный интеллект может выполнять задачи с умом или имитировать поведение человека, такое как понимание языка, анализ текста, распознавание объектов, обработка видео и изображений. Пирамида показывает тот факт, что инженерия данных составляет основную часть проекта по науке о данных; ML / AI становится жизнеспособным только тогда, когда заложены основы.

Превью опубликовано в https://www.mobiquity.com/resources/from-text-to-speech

Пирамидальный подход к AWS Data Analytics

Вопросы по теме