Итак, в этой статье я обсуждаю статьи о политиках диалога с несколькими действиями в диалоговых системах, ориентированных на задачи. Диалоговые системы, ориентированные на задачи, — это диалоговые системы, которые помогают вам достичь какой-то цели — например, при бронировании авиабилетов. Некоторые примеры: Alexa, Siri и т. д.

Эти системы состоят из четырех компонентов, из которых компонент Dialog Policy используется для определения действий системы на основе текущего пользовательского диалога и состояния диалога.

Обычно на каждый пользовательский диалог отвечает один системный диалог. Но часто несколько ответов могут иметь смысл: например, на «найди мне ресторан» можно ответить «Конечно! Какую кухню вы ищете?» или «Какие-то конкретные области, которые вы бы предпочли?». Новые исследования показывают, что для получения более разнообразных и правдоподобных ответов следует использовать сопоставление состояний и действий по принципу "один ко многим". Это связано с тем, что человеческий разговор разнообразен, и не обязательно должен быть только один правильный способ выполнения задачи [1].

Какие популярные методы или базовые показатели обычно используются?

Диалоговые системы, ориентированные на задачу, с множественными правдоподобными ответами в основном игнорируются в исследовательском сообществе. Большинство работ по этой теме сосредоточено на общих диалоговых системах; были найдены только четыре статьи, посвященные диалогу, ориентированному на задачу. Описание этих четырех работ приведено ниже.

  1. Эта статья Чжана и др. предлагает два компонента: структуру для увеличения данных и сеть с несколькими декодерами. Платформа помогает изучить политику диалога, которая может генерировать разнообразные ответы, и добавляет эти многочисленные действия в набор данных посредством передискретизации. Модель декодера представляет собой сквозную диалоговую систему, состоящую из трех декодеров: одного для диапазона убеждений, одного для действия системы и одного для ответа системы. Декодер системных действий использует вышеупомянутую структуру для генерации нескольких действий, которые затем передаются декодеру системных ответов.
  2. Авторы этой работы Шу и др. предложить закрытую ячейку в модели кодер-декодер, которая выводит диалоговые действия в формате (continue, act, slot). Продолжитьуказывает, следует ли генерировать дополнительные действия, действие — это тип действия (например, запрос), а ячейка — это для слотов, соответствующих типу акта. На каждом шагу входом для кодировщика является состояние диалога и вектор базы знаний, который затем передается трехкомпонентному декодеру, который последовательно декодирует части продолжения, действия и слота кортежа.
  3. Эта статья Раджендрана и др. представляет маску сквозной сети памяти для множественных ответов. Эта основанная на поиске модель обучается в два этапа: этап контролируемого обучения и этап обучения с подкреплением. После обучения в течение 150 эпох лучшая контролируемая модель выбирается в качестве входных данных для части RL, которая затем дает окончательный результат.
  4. Джхунджхунвала и др. представить основу политики диалога с интерактивным человеческим обучением. На первом этапе модель обучается диалогу между людьми. Во втором для каждого пользовательского диалога 5 системных действий передаются тренерам-людям, чтобы выбрать лучшее и улучшить модель. Затем, наконец, лучшее действие отправляется компоненту NLG. Хотя политика диалога является многодействующей, в качестве выходных данных системы выдается только один окончательный ответ, так что это не совсем система с множественными ответами. Это подчеркивает тот факт, что системы множественного действия и множественного реагирования являются отдельными, и не всегда следует ожидать однозначного соответствия между действием и ответом.

Создание диалоговых систем с несколькими действиями и несколькими ответами — сложная проблема, часто усугубляемая отсутствием подходящих аннотированных данных и показателей оценки. Но это имеет большой потенциал в диалоговом сообществе и должно быть продолжено в исследованиях.