Доклад ODSC West 2018 на тему « Программное обеспечение 2.0 и подводное плавание: за пределами данных, помеченных вручную », представленный доктором философии Алексом Ратнером. студент факультета компьютерных наук Стэнфордского университета обсуждает новый способ эффективного программирования систем машинного обучения с использованием так называемого более слабого контроля и то, как он позволяет экспертам в предметной области, которые ничего не знают о машинном обучении, быстро и гибко обучать модели машинного обучения.

[Статья по теме: Введение в активное обучение]

Ратнер также описывает Snorkel, систему, которая фокусируется на возникающем узком месте обучающих данных в так называемом стеке программного обеспечения 2.0 (что указывает на переход к системам на основе машинного обучения). Хорошим примером этого является то, как группа машинного перевода Google перешла от своей исходной системы ручного перевода, основанной на статистике, к системе, основанной на крупномасштабной модели машинного обучения, реализованной в TensorFlow, платформе программирования ИИ с открытым исходным кодом. Количество строк кода в исходной системе перевода Google составляло около 500000, в то время как количество строк в нейронной системе машинного перевода составляло всего 500.

Из « Software 2.0 and Snorkel: Beyond Hand-Labeled Data », представленного Алексом Ратнером

В докладе рассказывается о теории обучения без маркированных данных, а также о множестве недавних приложений в области обработки естественного языка, проблем со структурированными данными и компьютерного зрения. В докладе кратко обсуждаются недавние расширения этих основных идей для автоматического создания дополнений данных, синтеза обучающих данных и обучения с помощью многозадачного супервизора.

Презентация организована следующим образом:

  • Шноркель: система управления тренировочными данными для программного обеспечения 2.0. Snorkel позволяет пользователям быстро и легко маркировать, дополнять и структурировать тренировочные наборы данных путем написания программных операторов, а не вручную маркировать данные и управлять ими.
  • Текущие направления: надзор за несколькими задачами с помощью Snorkel MeTaL, при котором, если вы тренируете какую-то модель для выполнения, скажем, 10 разных задач над аналогичными или одинаковыми данными, вы можете, наоборот, обучить их все вместе и поделиться представлениями и слоями, которые они изучают в некоторых из них. сети.
  • Собираем все вместе: видение программного обеспечения 2.0

Одним из ключевых узких мест в создании систем машинного обучения сегодня является создание помеченных наборов обучающих данных и управление ими . Вместо того, чтобы маркировать данные вручную, в докладе демонстрируется, как работать над предоставлением пользователям возможности взаимодействовать с современным стеком машинного обучения. путем программного создания и управления наборами обучающих данных . Эти подходы слабого контроля могут привести к созданию приложений за дни или недели, а не за месяцы или годы.

В своей работе Ратнер исследует, могут ли пользователи обучать модели без каких-либо вручную помеченных обучающих данных, вместо этого создавая функции маркировки, которые программно маркируют данные с использованием стратегий слабого надзора, таких как эвристика и базы знаний. , или другие модели. Эти функции маркировки могут иметь произвольную точность и корреляцию, что приводит к возникновению новых системных, алгоритмических и теоретических проблем.

Доклад включает в себя обширное тематическое исследование, посвященное использованию трубки для сноркелинга в области рентгена грудной клетки - сотрудничество со Стэнфордским отделением радиологии. Раньше процесс ручной инженерии для решения этой проблемы занимал годы. Используя Snorkel, эксперты в предметной области смогли определить некоторые эвристики высокого уровня для маркировки отчетов о рентгеновских снимках и смогли достичь того же исходного уровня за 1-2 недели.

Из « Software 2.0 and Snorkel: Beyond Hand-Labeled Data », представленного Алексом Ратнером

Чтобы глубже погрузиться в попытки выйти за рамки данных, помеченных вручную, ознакомьтесь с убедительной речью Алекса Ратнера на ODSC West 2018.

[Статья по теме: Глубокое обучение для классификации текста]

Ключевые выводы:

  • Моделируя процесс маркировки наборов обучающих данных, мы можем позволить пользователям создавать их на более высоком уровне и более быстрыми способами.
  • Надзор как декларативный интерфейс к ПО 2.0
  • Моделирование шума в этих процессах вместо того, чтобы рассматривать их как статические активы, может позволить нам повысить производительность наборов данных и фактически создавать их более высокоуровневыми, более дешевыми и эффективными способами.
  • Мы можем амортизировать затраты и раздвинуть границы еще больше, взяв многозадачное (и массово многозадачное) обучение

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.