Карл Мориц Герман† Тома’с Ко ˇ cisk ˇ y´†‡ Эдвард Грефенштетт† Лассе Эспехольт† Уилл Кей† Мустафа Сулейман† Фил Блансо솇 †Google DeepMind ‡Оксфордский университет {kmh,tkocisky,etg,lespeholt,wkay,mustafasul ,pblunsom}@google.com

Аннотация.

Обучение машин чтению документов на естественном языке остается сложной задачей. Системы машинного считывания могут быть проверены на их способность отвечать на вопросы, заданные в содержании документов, которые они видели, но до сих пор для этого типа оценки отсутствовали крупномасштабные обучающие и тестовые наборы данных. В этой работе мы определяем новую методологию, которая устраняет это узкое место и обеспечивает крупномасштабные контролируемые данные понимания прочитанного. Это позволяет нам разработать класс глубоких нейронных сетей, основанных на внимании, которые учатся читать реальные документы и отвечать на сложные вопросы с минимальными предварительными знаниями о структуре языка.

1. Введение

Продвижение по пути от неглубоких алгоритмов поиска информации из набора слов к машинам, способным читать и понимать документы, было медленным. Традиционные подходы к машинному чтению и пониманию основаны либо на разработанных вручную грамматиках [1], либо на методах извлечения информации для обнаружения троек аргументов-предикатов, которые впоследствии могут быть запрошены как реляционная база данных [2]. Подходы к контролируемому машинному обучению в значительной степени отсутствовали в этой области как из-за отсутствия крупномасштабных наборов данных для обучения, так и из-за сложности структурирования статистических моделей, достаточно гибких, чтобы научиться использовать структуру документов. Хотя получение контролируемых данных о понимании прочитанного на естественном языке оказалось трудным, некоторые исследователи исследовали создание синтетических повествований и запросов [3, 4]. Такие подходы позволяют генерировать практически неограниченное количество контролируемых данных и позволяют исследователям изолировать эффективность своих алгоритмов от отдельных моделируемых явлений. Работа с такими данными показала, что модели на основе нейронных сетей перспективны для моделирования понимания прочитанного, на чем мы и будем основываться. Исторически сложилось так, что многие подобные подходы в компьютерной лингвистике не смогли справиться с переходом от синтетических данных к реальной среде, поскольку такие закрытые миры неизбежно не в состоянии отразить сложность, богатство и шумность естественного языка [5].

В этой работе мы стремимся напрямую решить проблему отсутствия реальных данных для обучения естественному языку, представляя новый подход к созданию набора данных для понимания прочитанного под наблюдением. Мы наблюдаем, что краткие и перефразированные предложения со связанными с ними документами могут быть легко преобразованы в тройки контекст-запрос-ответ с использованием простых алгоритмов обнаружения сущностей и анонимизации. Используя этот подход, мы собрали два новых корпуса примерно из миллиона новостей с соответствующими запросами с веб-сайтов CNN и Daily Mail. Мы демонстрируем эффективность наших новых корпусов, создавая новые модели глубокого обучения для понимания прочитанного. Эти модели опираются на последние разработки по включению механизмов внимания в рекуррентные архитектуры нейронных сетей [6, 7, 8, 4]. Это позволяет модели сосредоточиться на аспектах документа, которые, по ее мнению, помогут ответить на вопрос, а также позволяет нам визуализировать процесс вывода. Мы сравниваем эти нейронные модели с рядом базовых и эвристических тестов, основанных на традиционном семантическом анализе фреймов, обеспечиваемом современными средствами обработки естественного языка.

Остальную часть исследования и его результаты см. в оригинале: https://proceedings.neurips.cc/paper/2015/file/afdec7005cc9f14302cd0474fd0f3c96-Paper.pdf