Первоначально опубликовано на https://thelastdev.com 11 марта 2020 г.

Было прекрасное утро, солнечный свет лился через окно на мой стол. С кружкой горячего кофе в руке я медленно шел в комнату к своему кабинету, уверенный и взволнованный. «Сегодня тот день, — прошептал я, — что сегодня я превзойду свою последнюю заявку Digit Recognizer на Kaggle! К тому времени, когда я добрался до своего стула, я был полон энергии! Щелкнул мышью, чтобы разбудить мой компьютер, и за считанные миллисекунды ввел свой пароль. Я сделал паузу… «Я никогда раньше не писал свой пароль так быстро», подумал я и быстро открыл сразу 15 вкладок в Google Chrome! Новости, забавные сообщения в блогах, Твиттер, YouTube и многое другое появлялись на моем экране, но было что-то, что могло изменить ход истории, ну… не истории, но определенно моего дня.

Мое внимание привлекло видео, видео от Жульена Саймона, рассказывающее об AutoML, SageMaker AutoPilot.

« Ну…, — сказал я, — Думаю, мне не помешает посмотреть видео, пока я пью кофе. Я побью себя в прошлом в Kaggle через минуту, это может подождать…

Подробности о посте:

  • Сложность уровня: 200
  • Потрачено денег: ~ 20 $ (пробная версия остановилась на 3 часа) Это может дорого обойтись!

Amazon SageMaker Studio — это обновленная версия SageMaker, анонсированная на конференции re:Invent 2019. Это интегрированная среда разработки для машинного обучения, полная новых функций и сервисов. Студия SageMaker идеально подходит для команд Data Science. Оставив позади блокноты типа экземпляра, Studio теперь имеет Jupyter Lab с несколькими пользователями и дружественным интерфейсом. Теперь вы можете создавать блокноты Jupyter за считанные секунды (без сервера 😮) и сотрудничать с коллегами, обучать модели, экспериментировать и многое другое! Эксперименты…

Поэтому я нажал кнопку воспроизведения… «Что такое SageMaker Experiments и AutoPilot?». Мне стало интересно… Пока я смотрел, как Жюльен просматривает вкладку экспериментов, у меня отвисла челюсть. “ Два щелчка мыши, и у вас есть полностью обученная модель без предварительной обработки, без разработки признаков и без настройки параметров?? Это рай! «Ну, если честно, это не мой рай, но я уверен, что это чей-то рай. Мне нравится выполнять ручные процессы, которые в конечном итоге приводят вас к выбору модели, обучению, настройке параметров и т. д. Но вот что! О Боже! Я должен был попробовать это, это было слишком хорошо, чтобы быть правдой! Поэтому я быстро вошел в свою учетную запись AWS и помчался через Огайо (регион). Я нажал кнопку Amazon SageMaker Studio и тут же создал пользователя.

Чтобы начать знакомство с Amazon SageMaker Studio, вам нужно сделать следующее:

  • Войдите в свою учетную запись и перейдите в сервис SageMaker.
  • Переключите свой регион на Огайо — us-east-2
  • Нажмите кнопку Amazon SageMaker Studio в верхней части левой боковой панели.

  • Добавьте имя пользователя или оставьте имя по умолчанию
  • Выберите существующую роль выполнения SageMaker или создайте новую.
  • Нажмите Отправить

Когда все будет готово, нажмите кнопку «Открыть студию», чтобы запустить SageMaker Studio.

«Хорошо, это было легко…», подумал я, ища значок эксперимента (маленький черный флакон). Когда я нашел его (это было не так сложно), я нажал «Создать эксперимент», загрузил свой набор данных в корзину S3, как предложил Жюльен, и определил целевую метку. Я уже знал, что проблема заключается в мультиклассовой классификации, поэтому я выбрал ее и нажал «Создать эксперимент»!

  1. Определите название эксперимента
  2. Покажите, где находится ваш набор данных, у меня было что-то вроде s3://my-bucket/mnist/train.csv
  3. Выберите имя столбца для вашей цели
  4. Выберите корзину S3 для вывода результатов, в моем случае я выбрал: s3://my-bucket/mnist/output
  5. Я выбрал мультиклассовую классификацию
  6. Я хотел увидеть весь потенциал эксперимента
  7. Создайте эксперимент

«О, Боже!! Это занимает так много времени!! Я был так взволнован, увидев результаты, но мне и в голову не пришло, что это очень трудоемкий процесс. Чтобы получить мои результаты, необходимо выполнить четыре шага:

Как видите, вы можете остановить эксперимент в любой момент, что я сразу и сделал, когда понял, что это займет несколько часов, и я не был уверен, сколько денег мне придется заплатить за это. В итоге весь процесс занял около 4 часов, и с меня сняли около 20 долларов, так что все в порядке.

Хорошо, это заняло много времени, это имеет смысл, но это было ооооочень много времени! Когда эксперимент был завершен, я выбрал лучшую модель и развернул конечную точку. Я хотел сказать об этом больше, но это было прямолинейно… оооочень в нижней строке я увидел большую звезду на одной из моделей, а затем я нажал кнопку развертывания. Вот оно!

Это код, который я использовал, чтобы делать прогнозы.

Ааааа… Барабанная дробь…

Ну ладно… Еще один день, еще одна модель… Для чего-то, что только что получило необработанный набор данных и создало модель XGboost для предсказания рукописных цифр, это довольно впечатляюще! Кроме того, я должен признаться… Я развернул модель до того, как закончился полный пробный период, но результат был бы почти таким же. Интересно, каким был бы результат, если бы набор данных имел исходные изображения или массивы 32x32x3 в качестве входных данных, поскольку теперь мы передавали алгоритму ряд признаков вместо изображения. Что ж, это то, что мы рассмотрим в следующем посте, и, на мой взгляд, массив 32x32x3 ломает весь смысл использования чистой магии для решения ваших проблем, пока вы пьете кофе перед своим компьютером и пишете сообщения в блоге…

На сегодня все! Надеюсь, вам понравилось! Любые вопросы или предложения по поводу поста вы можете задать мне в разделе комментариев ниже или найти меня и связаться со мной в Твиттере @siaterliskonsta

Первоначально опубликовано на https://thelastdev.com 11 марта 2020 г.