Меня часто просят сформулировать некоторые проблемы, над которыми люди могут немедленно начать работать и получить реальный отраслевой опыт в области искусственного интеллекта. Сложность таких ситуаций заключается в том, что проблема или ее часть должны быть значимы для людей с любым уровнем технологической подготовки. Итак, вот попытка сформулировать такую ​​проблему для обработки естественного языка.

Рассмотрим этот набор данных на основе Википедии (40 МБ), созданный командой SQUAD в Стэнфорде. Попробуйте решить следующие задачи для текста, содержащегося в этих статьях. Каждая программа должна быть самообучаемой и иметь четко определенные показатели точности.

  1. Напишите программу для точного разделения абзацев в базе данных на предложения.
  2. Напишите программу для точного разделения предложений на отдельные слова и знаки препинания.
  3. Напишите программу для точного предсказания части речи каждого из слов/токенов.
  4. Напишите программу, которая разбивает каждое слово на его лемму и модификацию, например. для слова «укоренение» лемма будет «корень», а модификация — «инг».
  5. Напишите программу, которая идентифицирует все: а) фразы-существительные; и б) Глагольные фразы
  6. Напишите программу, которая а) определяет все анафоры; б) классифицировать их и в) решить их.
  7. Напишите программу для категоризации всех словосочетаний с существительными и глаголами, включая те, которые представлены в виде анафор, до подходящего уровня гиперонимов, например. «кошка» — животное, Индия — страна и т. д.
  8. Напишите программу для определения недостающей информации и ее типа/гипернима, например. для «Какой самый большой континент» программа должна определить, что ответ должен быть гипонимом «континентов».
  9. Напишите программу, которая будет отвечать на каждый из вопросов в наборе данных, определяя правильное предложение или фразу, например. для «Какой самый большой континент?» Ответ: «Азия — самый большой континент».
  10. Напишите программу, чтобы ответить на каждый из вопросов в наборе данных, указав точный ответ, например. для «Какой самый большой континент?» ответ «Азия».

На этом этапе вы также готовы принять участие во всемирном соревновании SQUAD.

Мне любопытны различные подходы, которые люди могут использовать для этого. Пожалуйста, предложите некоторые из них в комментариях, а также дайте ссылку на различные ресурсы, которые вы будете использовать для решения этих проблем.