Часть 3: Введение в прогнозирование пользовательских контейнеров на платформе AI
Во второй части мы рассмотрели варианты обслуживания моделей в Google Cloud. Custom Container Prediction - это новый член семейства, полностью управляемая служба со всеми расширенными функциями, такими как мониторинг моделей и объяснимость, но при этом дает вам свободу обслуживания из контейнера по вашему выбору.
Пользовательский образ контейнера может быть таким же простым, как базовый образ от NVIDIA или Facebook. Предварительная / постобработка вашей модели может уже быть в графе обслуживания TensorFlow (предпочтительный метод). Все, что вам нужно сделать сейчас, - это сообщить AI Platform, как взаимодействовать с вашим контейнером, и указать AI Platform, где искать артефакты вашей модели, или скопировать их самостоятельно в образ контейнера.
Первая из двух архитектур - это сервер прямой модели. Эта конфигурация имеет смысл, если:
- вы обслуживаете PyTorch или любой другой фреймворк, который сегодня изначально не размещен на платформе AI, так как это позволяет вам выбрать свой модельный сервер, например TorchServe.
- вам необходимо настроить параметры сервера модели, такие как динамическое пакетирование.
- вам нужно обслужить только одну модель в контейнере.
Однако, поскольку вы управляете судьбой своего контейнера, сервер модели со слушателем предлагает гораздо большую гибкость для сценариев, в которых:
- вам нужна более сложная маршрутизация, чем предлагается AI Platform.
- ваша предварительная / постобработка находится за пределами вашего графика обслуживания.
- ваша предварительная / постобработка тяжелая, и у вас низкие бюджеты задержки. Пользовательское прогнозирование контейнера предлагает более высокую производительность по сравнению с Пользовательскими процедурами прогнозирования платформы AI.
- вам необходимо обслуживать несколько артефактов модели из одного контейнера.
Ниже приводится их сравнение. В общем, используйте Direct, если у вас нет причин использовать Listener.
Теперь, когда у вас есть концептуальное представление о прогнозировании настраиваемых контейнеров, приступим к делу.
Далее… Часть 4: Развертывание сервера вывода NVIDIA Triton на платформе AI