Моя команда рассматривает «Paper Review» как проект по развитию компетенций. Итак, каждую неделю я буду загружать на Medium как минимум одну публикацию с обзором статьи, название которой начинается с «[Обзор статьи]».

  • Название статьи | Математика обучения: работа с данными
  • Автор | Томасо Поджо и Стив Смейл (MIT Computer Science)
  • Публикация | Уведомления AMS Volume 50, Number 5
  • Цитата | 698 (Гугл, 12 марта 2023 г.)

В статье «Математика обучения: работа с данными» Томазо Поджо обсуждает математические принципы, лежащие в основе машинного обучения, подобласти искусственного интеллекта. Машинное обучение включает в себя использование алгоритмов для анализа данных и изучения закономерностей, которые затем можно использовать для прогнозирования или классификации. Поджо утверждает, что понимание математических принципов, лежащих в основе машинного обучения, имеет решающее значение для разработки более эффективных алгоритмов и продвижения в этой области.

Давайте поговорим о том, что такое машинное обучение. Машинное обучение — это способ научить компьютер распознавать закономерности в данных. Например, вы можете использовать машинное обучение, чтобы научить компьютер распознавать разницу между изображениями собак и изображениями кошек. Для этого вы должны дать компьютеру множество изображений собак и кошек и сказать ему, какие из них собаки, а какие кошки. Затем компьютер анализировал изображения и пытался найти закономерности, отличающие собак от кошек. Вот пример обучения с учителем в машинном обучении. Обучение с учителем — это метод, при котором системы обучаются на примерах, а не программируются. Это можно использовать для создания интеллектуальных машин, которые учатся на собственном опыте и совершенствуют свои способности. Например, производитель автомобилей может использовать контролируемое обучение для разработки системы, которая будет обнаруживать пешеходов, собирающихся перейти дорогу перед автомобилем, чтобы предупредить водителя о возможной опасности. Проблема заключается в том, насколько хорошо функция обобщает, то есть насколько хорошо она оценивает выходные данные для ранее невиданных входных данных.

Методы обучения включают в себя подгонку функции к данным, аналогичную подгонке экспериментальных данных для раскрытия основных физических законов. Цель состоит в том, чтобы делать прогнозы. Обучение — это способ принципиального извлечения прогностических теорий из данных. В статье представлен алгоритм регуляризации, важный для теории обучения и его приложений, а также теоретические основы теории обучения. Компромисс между количеством примеров и сложностью пространства гипотез важен в теории обучения и ее приложениях. Статья завершается замечаниями по истории и будущим открытым проблемам.

В тексте описывается простой и эффективный метод анализа данных, называемый регрессией ядра. Он включает в себя начало с набора точек данных, выбор математической функции, называемой ядром, и использование ядра для создания функции, которая может предсказывать результаты на основе новых входных данных. Этот метод основан на математическом понятии, называемом положительной определенностью, и включает решение набора уравнений для нахождения наилучших параметров функции.

В параграфе обсуждается линейная система уравнений с m переменными, которая является корректной и может быть эффективно решена с использованием алгоритмов, разработанных со времен Гаусса. В нем также упоминается конкретное уравнение (2), которое аппроксимирует неизвестную функцию, используя взвешенную суперпозицию гауссовских пятен с центром в месте расположения m примеров. Вес каждой гауссианы определяется для минимизации ошибки в обучающем наборе, а степень сглаживания, шумоустойчивость и обобщение контролируются σ гауссианы. Очень маленькое σ приводит к представлению, которое эффективно функционирует как справочная таблица и не может быть обобщено.

В нем обсуждается производительность и примеры алгоритма, используемого для регрессии и бинарной классификации. Алгоритм успешно используется в различных приложениях, включая компьютерную графику и финансы. В задачах бинарной классификации алгоритм предсказывает метку на основе знака функции. Было показано, что он сопоставим с популярными классификаторами, используемыми сегодня.

Это объясняет, как найти функцию, которая минимизирует ошибку в заданном пространстве гипотез, используя регуляризацию Тихонова. Этот алгоритм включает в себя минимизацию регуляризованного функционала в фиксированном пространстве гипотез с помощью регуляризатора, обеспечивающего гладкость и уникальность решения. Норма этого пространства, известного как гильбертово пространство воспроизводящего ядра (RKHS), определяется ядром K. Решение дается уравнением (6), а коэффициенты ci могут быть найдены путем решения задачи квадратичного программирования, которая отличается для неквадратичных функций потерь. Алгоритмы регрессии машины опорных векторов (SVM) и классификации SVM являются частными случаями этого метода.

Он посвящен основам алгоритма в теории обучения. Предполагается, что данные, используемые в алгоритме, являются случайными и взяты из неизвестной вероятностной меры. Цель теории обучения состоит в том, чтобы найти истинную функцию ввода-вывода, которая отражает среду, производящую данные. Пространство, называемое пространством гипотез, используется для поиска этой функции. В тексте задача разбивается на этапы путем определения «истинного оптимума», а ошибка разбивается на ошибку выборки и ошибку аппроксимации, которые оцениваются с помощью теории вероятности и теории аппроксимации соответственно.

Он определяет ошибку выборки и утверждает, что достоверность ошибки выборки зависит от размера выборки и выбранного порогового значения. Затем в тексте представлена ​​теорема 1, которая дает верхнюю границу вероятности ошибки выборки, превышающей пороговое значение. Теорема вводит понятие числа покрытия в пространстве гипотез для оценки этой вероятности. Доказательство теоремы 1 начинается с неравенства Хёффдинга и включает вычисление числа покрытия. Теорема находит применение в контексте оценки сложности пространства гипотез при работе с функциями {0,1}.

Регуляризация

В машинном обучении существует компромисс между минимизацией ошибки выборки и минимизацией ошибки аппроксимации, известный как проблема смещения-дисперсии. Увеличение количества точек данных уменьшает ошибку выборки, но увеличение сложности пространства гипотез (то есть модели) часто увеличивает ошибку аппроксимации при одновременном снижении эффективной сложности пространства гипотез. Алгоритм регуляризации позволяет сбалансировать этот компромисс, и оптимальное решение находится путем минимизации суммы ошибок выборки и аппроксимации. Регуляризованная задача определяется регуляризованной функцией ошибок, где эмпирический оптимум находится как решение задачи оптимизации по всем f в конкретном пространстве гипотез. Ошибку аппроксимации можно изучить, рассмотрев компромисс между ошибкой выборки и ошибкой аппроксимации.

Уравнение (4) в алгоритме обучения имеет байесовскую интерпретацию. Первый член с квадратичной функцией потерь соответствует гауссовскому шуму в данных, а норма RKHS эквивалентна априорной вероятности в пространстве гипотез. Теорема Байеса обеспечивает апостериорное распределение, включая условную вероятность функции, модель шума и априорную вероятность случайного поля. Максимальная апостериорная оценка является одной из возможных оценок, полученных в результате этого расчета.

Это объясняет, что для согласованности алгоритма ERM при прогнозировании правильных значений пространство гипотез H должно быть компактным и представлять собой однородный класс функций Гливенко-Кантелли. Существуют альтернативные условия, такие как конечность размерности VC функций {0,1}. В тексте также исследуется связь между стабильностью решений и согласованностью в ERM, что является открытым вопросом.

В этом тексте обсуждается теория обучения с учителем, которая оказалась успешной во многих приложениях, но все еще имеет нерешенные проблемы. Одним из важных аспектов интеллекта является способность к обучению, которая не полностью охвачена современными обучающимися машинами. Люди и животные могут учиться на очень немногих примерах, чего современные алгоритмы сделать не могут. Автор предлагает дальнейшую работу по обучению на частично помеченных примерах и смежной области активного обучения. В тексте также обсуждается важность иерархических архитектур в обучающих системах, которые демонстрируют превосходную производительность в инженерных приложениях. Сложность пространства гипотез устанавливает ограничение скорости и сложность выборки для обучения, а иерархии могут позволить разложить задачу на задачи обучения низкой сложности, для которых может потребоваться лишь небольшое количество обучающих примеров. Текст завершается предположением, что конечной проблемой естествознания является организация и принципы высших функций мозга.

Применение

Одним из них является ансамблевое обучение, которое включает в себя объединение прогнозов нескольких моделей для повышения точности. Ансамблевое обучение может быть особенно эффективным, когда отдельные модели имеют разные сильные и слабые стороны, поскольку их объединение может дать более надежный и точный общий прогноз.

Глубокое обучение, которое включает в себя многослойное обучение нейронных сетей. Глубокое обучение было особенно успешным в задачах распознавания изображений и речи, а также в обработке естественного языка. Архитектуры глубокого обучения, такие как сверточные нейронные сети (CNN), достигли самой современной производительности во многих задачах классификации изображений, включая распознавание рукописных цифр.

Трансферное обучение, которое включает повторное использование предварительно обученной модели в связанной задаче для повышения производительности в новой задаче. Например, предварительно обученная CNN, которая научилась распознавать объекты на изображениях, может быть повторно использована и настроена для решения новой задачи классификации изображений, например, для распознавания различных видов животных. Трансферное обучение может быть особенно полезным, когда для новой задачи доступны ограниченные размеченные данные.

Байесовские методы также могут быть полезны в исследованиях машинного обучения, особенно для моделирования неопределенности и вероятностных прогнозов. Байесовские методы включают представление неопределенности с использованием распределений вероятностей и обновление этих распределений по мере поступления новых данных. Это может быть особенно полезно при работе с небольшими или зашумленными наборами данных, поскольку байесовские методы могут обеспечить принципиальный способ прогнозирования, даже если данные неопределенны или неполны.