Обслуживание моделей машинного обучения в Google Cloud

Часть 3: Введение в прогнозирование пользовательских контейнеров на платформе AI

Во второй части мы рассмотрели варианты обслуживания моделей в Google Cloud. Custom Container Prediction - это новый член семейства, полностью управляемая служба со всеми расширенными функциями, такими как мониторинг моделей и объяснимость, но при этом дает вам свободу обслуживания из контейнера по вашему выбору.

Пользовательский образ контейнера может быть таким же простым, как базовый образ от NVIDIA или Facebook. Предварительная / постобработка вашей модели может уже быть в графе обслуживания TensorFlow (предпочтительный метод). Все, что вам нужно сделать сейчас, - это сообщить AI Platform, как взаимодействовать с вашим контейнером, и указать AI Platform, где искать артефакты вашей модели, или скопировать их самостоятельно в образ контейнера.

Первая из двух архитектур - это сервер прямой модели. Эта конфигурация имеет смысл, если:

вы обслуживаете PyTorch или любой другой фреймворк, который сегодня изначально не размещен на платформе AI, так как это позволяет вам выбрать свой модельный сервер, например TorchServe.
вам необходимо настроить параметры сервера модели, такие как динамическое пакетирование.
вам нужно обслужить только одну модель в контейнере.

Однако, поскольку вы управляете судьбой своего контейнера, сервер модели со слушателем предлагает гораздо большую гибкость для сценариев, в которых:

вам нужна более сложная маршрутизация, чем предлагается AI Platform.
ваша предварительная / постобработка находится за пределами вашего графика обслуживания.
ваша предварительная / постобработка тяжелая, и у вас низкие бюджеты задержки. Пользовательское прогнозирование контейнера предлагает более высокую производительность по сравнению с Пользовательскими процедурами прогнозирования платформы AI.
вам необходимо обслуживать несколько артефактов модели из одного контейнера.

Ниже приводится их сравнение. В общем, используйте Direct, если у вас нет причин использовать Listener.

Теперь, когда у вас есть концептуальное представление о прогнозировании настраиваемых контейнеров, приступим к делу.

Далее… Часть 4: Развертывание сервера вывода NVIDIA Triton на платформе AI

Обслуживание моделей машинного обучения в Google Cloud

Часть 3: Введение в прогнозирование пользовательских контейнеров на платформе AI

Вопросы по теме