Часть 3: Введение в прогнозирование пользовательских контейнеров на платформе AI

Во второй части мы рассмотрели варианты обслуживания моделей в Google Cloud. Custom Container Prediction - это новый член семейства, полностью управляемая служба со всеми расширенными функциями, такими как мониторинг моделей и объяснимость, но при этом дает вам свободу обслуживания из контейнера по вашему выбору.

Пользовательский образ контейнера может быть таким же простым, как базовый образ от NVIDIA или Facebook. Предварительная / постобработка вашей модели может уже быть в графе обслуживания TensorFlow (предпочтительный метод). Все, что вам нужно сделать сейчас, - это сообщить AI Platform, как взаимодействовать с вашим контейнером, и указать AI Platform, где искать артефакты вашей модели, или скопировать их самостоятельно в образ контейнера.

Первая из двух архитектур - это сервер прямой модели. Эта конфигурация имеет смысл, если:

  • вы обслуживаете PyTorch или любой другой фреймворк, который сегодня изначально не размещен на платформе AI, так как это позволяет вам выбрать свой модельный сервер, например TorchServe.
  • вам необходимо настроить параметры сервера модели, такие как динамическое пакетирование.
  • вам нужно обслужить только одну модель в контейнере.

Однако, поскольку вы управляете судьбой своего контейнера, сервер модели со слушателем предлагает гораздо большую гибкость для сценариев, в которых:

  • вам нужна более сложная маршрутизация, чем предлагается AI Platform.
  • ваша предварительная / постобработка находится за пределами вашего графика обслуживания.
  • ваша предварительная / постобработка тяжелая, и у вас низкие бюджеты задержки. Пользовательское прогнозирование контейнера предлагает более высокую производительность по сравнению с Пользовательскими процедурами прогнозирования платформы AI.
  • вам необходимо обслуживать несколько артефактов модели из одного контейнера.

Ниже приводится их сравнение. В общем, используйте Direct, если у вас нет причин использовать Listener.

Теперь, когда у вас есть концептуальное представление о прогнозировании настраиваемых контейнеров, приступим к делу.

Далее… Часть 4: Развертывание сервера вывода NVIDIA Triton на платформе AI