Не можете получить больше данных? Менее шумный может помочь

В более традиционных отраслях, таких как производство или здравоохранение, машинное обучение только начинает раскрывать свой потенциал для создания добавленной стоимости. Ключевым моментом для этих отраслей будет переход от разработки машинного обучения, ориентированной на модели, к разработке машинного обучения, ориентированной на данные.[1] Как отмечает Эндрю Нг (соучредитель Coursera и deeplearning.ai, глава Google Brain [2]), в этих отраслях ключевым будет принятие ориентированного на данные подхода к машинному обучению, где основное внимание уделяется качеству данных, а не количеству.[3]

В этом сообщении блога мы рассмотрим влияние шума (качество) и размера набора данных (количество) на регрессию гауссовских процессов.[5] Мы увидим, что вместо увеличения количества данных улучшение качества данных может привести к такому же улучшению качества подгонки. Я буду действовать в три этапа. Сначала я представлю набор данных. Во-вторых, я определю шум, который будет смоделирован и добавлен к данным. В-третьих, я исследую влияние размера набора данных и шума на точность регрессионной модели. Графики и численные эксперименты генерировались с помощью программы Юлия. Код можно найти на github. Если не указано иное, рисунки генерируются кодом (автором).

1. Слон Джона фон Неймана

Чтобы исследовать взаимосвязь между размером набора данных и шумом, мы используем слона фон Неймана [6], показанного на рис. 2, в качестве игрушечного набора данных.

Примечание: Джон фон Нейман (1903–1957) был математиком венгерского происхождения. Он внес большой вклад в ряд областей, включая математику, физику, информатику и статистику. На встрече с Энрико Ферми (1953 г.) он раскритиковал свою работу, сказав: С четырьмя параметрами я могу подобрать слона, а с пятью я могу заставить его шевелить хоботом [7].

Периметр слона (рис. 2) описывается набором точек (x(t), y(t)), где t — параметр. Интерпретация t как времени J. Mayer et al. [6] расширил x(t) и y(t) отдельно как ряд Фурье

где верхние индексы (x, y) обозначают расширение x и y, а нижние индексы k указывают k-й член в разложении Фурье. В таблице 1 перечислены коэффициенты (A, B), найденные J. Mayer et al. Значения, перечисленные в таблице 1, также включают параметр покачивания wiggle coeff.=40 и координаты глаза xₑ=yₑ=20 [6].

По правде говоря, нам нужно 24 действительных коэффициента, чтобы сделать слона, поскольку k варьируется от k=0 до k=5 с четырьмя коэффициентами, необходимыми для каждого k. Однако Дж. Майер и др. обнаружил, что большинство коэффициентов можно установить равными нулю, оставив только восемь ненулевых параметров. Если далее каждую пару коэффициентов суммировать в одно комплексное число, контур слона (и покачивание хобота) действительно кодируется набором из четырех (плюс один) комплексных параметров.

В дальнейшем мы будем использовать кривые x(t) и y(t) с t=[ −π, π] для нашего эксперименты (показаны на рис. 3).

2. Шум

Для шума мы используем случайные числа, взятые из равномерного распределения, стандартного нормального распределения или асимметричного нормального распределения. Шум генерируется генератором псевдослучайных чисел. Мы используем генератор псевдослучайных чисел по умолчанию в Юлии на основе алгоритма xoshiro.

2.1 Равномерное распределение

При выборке из непрерывного равномерного распределения каждое действительное число в интервале [a,b] равновероятно. На рис. 4 показаны кривые x(t) и y(t), включая равномерно распределенный шум на гистограмме. На рисунке 4 случайные числа находятся в диапазоне от a=-1,5 до b=1,5.

2.2 Стандартное нормальное распределение

Стандартное нормальное распределение (также называемое распределением Гаусса) представляет собой непрерывное распределение вероятностей для действительнозначной случайной величины. Общая форма нормированной функции плотности вероятности (PDF) определяется уравнением 2

где параметры μ — среднее (или ожидаемое) значение, а σ² — дисперсия стандартного нормального распределения. Стандартное нормальное распределение — это симметричное распределение, в котором среднее, медиана и мода равны. Одной из причин важности стандартного нормального распределения в статистике является центральная предельная теорема. В нем говорится, что при некоторых условиях выборочное распределение среднего значения многих независимых случайных величин с конечным средним значением и дисперсией приближается к нормальному распределению, поскольку количество влияющих случайных величин стремится к бесконечности. Физические величины, которые, как ожидается, будут суммой многих независимых процессов, таких как ошибки измерения, часто имеют нормальное распределение.[9] Поэтому шум часто можно аппроксимировать стандартным нормальным распределением.

На рис. 5 показаны кривые данных x(t) и y(t), включая шум, создаваемый стандартным нормальным распределением. В примере (рис. 5) среднее значение шума равно µ=0, а стандартное отклонение равно σ=2.

2.3 Искаженное нормальное распределение

Асимметричное нормальное распределение представляет собой разновидность асимметричного возмущенного нормального распределения. Распределение можно использовать для моделирования асимметричного шума, когда один хвост длиннее другого. В асимметричном нормальном распределении среднее и медиана, как правило, различны. Общая форма асимметричной нормальной функции плотности вероятности (PDF), как показано в уравнении 3, является произведением стандартного нормального распределения PDF Φ(x’) и функции ошибок ψ(αx’).

где местоположение задается ξ, масштаб ω, а параметр α определяет асимметрию. Φ(x’) становится нормальным распределением (уравнение 2) для α=0 в уравнении. 3. Часто параметр α называют параметром формы, поскольку он регулирует форму PDF. Распределение скошено вправо, если α>0, и скошено влево, если α‹0.

На рис. 6 показаны кривые данных x(t) и y(t), включая шум, создаваемый асимметричным нормальным распределением. Шум был сгенерирован с использованием параметров местоположения ξ=0, масштаба ω=3 и формы α=4.

3. Первый эксперимент: размер набора данных и качество регрессии

Для первого эксперимента воспользуемся данными y(t) и добавим шум, генерируемый стандартным нормальным распределением с μ=0 и σ=2 (см. рис. 5). В этом примере мы берем набор данных с N=1000 точками данных, как описано выше, из которого мы выбираем случайный выбор 10, 50, 100 и 500 точек данных, как показано на рис. 7. Чтобы подобрать точки выборки, мы используем гауссовы процессы.

Почему гауссовские процессы? Помимо того, что гауссовские процессы широко используются, они хорошо работают с небольшими наборами данных, и для гауссовских процессов проще определить причину проблем во время обучения или вывода, чем для других сопоставимых методов машинного обучения. Например, гауссовские процессы использовались Компанией Moonshot X в проекте расширить подключение к Интернету с помощью стратостатов. Используя гауссовские процессы, каждый воздушный шар решает, как лучше всего использовать преобладающие ветры, чтобы стать частью одной большой коммуникационной сети.[4]

Чтобы оценить качество регрессии гауссовского процесса, мы вычисляем ошибку на основе разницы между истинным значением и подобранным. Краткое введение в ошибки в регрессии машинного обучения см. в Ref. [10]. Здесь мы вычисляем среднюю абсолютную ошибку (MAE), среднеквадратичную ошибку (MSE) и среднеквадратичную ошибку (RMSE). MAE, MSE, RMSE, соответствующие нашей регрессии выше (рис. 7), перечислены в таблице 2.

Из рис. 7 и табл. 2, мы видим, как качество подгонки улучшается с увеличением количества точек данных. Неудивительно, что соответствие улучшается с увеличением количества данных. Рис. 8 также визуализирует это поведение в логарифмическом масштабе.

Мы видим, что увеличение количества точек с N=50 до N=500 снижает RMSE на 60%. Позже мы увидим, что уменьшение вдвое эффекта шума приводит к аналогичному уменьшению.

Примечание. Для регрессии гауссовых процессов мы используем функцию квадрата экспоненты (SE) в качестве ядра (уравнение 4). В регрессии гауссовских процессов ядро ​​SE используется по умолчанию в большинстве библиотек машинного обучения. SE имеет несколько преимуществ перед другими ядрами. Например, каждая функция в своем априоре дифференцируема бесконечно много раз. Кроме того, у него всего два параметра: масштаб длины и выходная дисперсия σ². Шкала длины определяет длину «покачиваний» в вашей функции. Выходная дисперсия σ² определяет среднее расстояние вашей функции от ее среднего значения. Для подгонки, показанной на рис. 7, мы выбрали гиперпараметр ℓ=8 и σ=75.

4. Второй эксперимент: влияние типа шума

Затем мы используем данные x(t) и добавляем шум, создаваемый тремя различными распределениями: однородным, стандартным нормальным и скошенным нормальным, как описано в разд. 2. Для равномерного распределения мы выбираем интервалы от a=-2,0 до b=2,0. Для стандартного нормального распределения мы используем параметры μ=0 для среднего значения и σ²=4,0 для дисперсии. Для асимметричного нормального распределения мы используем параметры ξ=0, ω=2,0 и α=2,0. Для всех трех распределений мы используем набор данных с N = 1000 точек данных. Из набора данных мы случайным образом выбрали 500 точек данных, как показано в левом столбце рис. 9.

Мы используем регрессию гауссовских процессов, как и ранее в гл. 3. Результаты регрессии гауссовских процессов показаны в правом столбце рис. 9. Точки данных показаны синими точками, а полученная аппроксимация — голубой линией. Кроме того, мы видим доверительный интервал (0,95) подгонки и визуализируем его в виде синей ленты.

Для однородного и гауссовского шума у ​​нас есть СКО 0,13 и 0,31 соответственно. RMSE аппроксимации Гаусса выше, потому что дисперсия шума также больше. Искаженный нормальный случай более сложен. В гауссовом и однородном случаях минимизация RMSE соответствия была эквивалентна нахождению соответствия максимального правдоподобия. Однако асимметричный нормальный случай более сложен, так как среднее значение и мода (максимальная вероятность) не совпадают. Поскольку регрессия гауссовых процессов оптимизируется для подбора максимального правдоподобия, а не для минимизации среднеквадратичного отклонения, мы ожидаем более высокое среднеквадратичное отклонение. Действительно, RMSE равен 1,4, как показано на рис. 9. В целом, мы видим, как масштаб и форма шума влияют на ожидаемую RMSE подгонки.

5. Третий эксперимент: влияние шума

В третьем эксперименте мы используем кривую x(t) и добавляем шум, создаваемый однородным, стандартным нормальным и асимметричным нормальным распределениями, как описано в разд. 2. Мы варьируем масштаб шума для каждого распределения следующим образом:

  • Равномерное распределение: [a,b] = {[-1, 1], [-2, 2], [-4, 4], [-8, 8]} ; среднее = 0
  • Нормальное распределение: σ={1, 2, 4, 8}; означает μ=0
  • асимметричное нормальное распределение: ω={1, 2, 4, 8}; параметры ξ=0, α=2.0

Мы используем набор данных с N = 5000 точек данных для каждого распределения. Мы случайным образом выбираем {50, 100, 500, 1000} точек из набора данных. Для каждой комбинации масштаба, распределения и количества точек данных мы используем регрессию гауссовских процессов и вычисляем подходящие значения RMSE, как ранее в разделе. 3. RMSE перечислены в Табл. 3 ниже.

Третий эксперимент показывает, что для всех трех распределений количество точек данных должно увеличиваться по мере увеличения масштаба шума, чтобы сохранить то же качество подгонки, что и измеренное с помощью RSME. Например, начиная с равномерного шума, отобранного из интервала [-2, 2] (масштаб = 2) с N = 100 точек, мы можем либо увеличить количество точек до N = 1000, чтобы уменьшить RMSE на 48%, либо мы можем уменьшите шум путем выборки из меньшего интервала [-1, 1] (масштаб = 1), чтобы уменьшить RMSE на 33%. Глядя на таб. 3 мы видим аналогичные компромиссы для других масштабов, размеров наборов данных и типов шума — уменьшение шума вдвое дает улучшение, аналогичное увеличению размера набора данных в десять раз.

6. Заключение

Мы видели, что более зашумленные данные приводят к худшим аппроксимациям. Кроме того, даже при одной и той же дисперсии форма шума может сильно влиять на качество подгонки. Наконец, мы сравнили улучшение качества и количества данных и обнаружили, что уменьшение зашумленности может привести к таким же улучшениям соответствия, как и увеличение количества точек данных.

В промышленных приложениях, где наборы данных малы и трудно получить больше данных, понимание, контроль и уменьшение зашумленности данных предлагает способ радикально улучшить качество подбора. Существуют различные методы контролируемого и эффективного снижения шума. Для вдохновения см. Ref. [11].

Рекомендации

  1. Эндрю Нг, Искусственный интеллект не должен быть слишком сложным или дорогим для вашего бизнеса, Harvard Business Review (июль 2021 г.)
  2. Статья в Википедии Эндрю Нг (декабрь 2021 г.)
  3. Николас Гордон Не верьте шумихе вокруг больших данных, говорит соучредитель Google Brain», Fortune.com (июль 2021 г.)
  4. Джеймс Уилсон, Пол Р. Догерти и Чейз Дэвенпорт Будущее ИИ будет зависеть от меньшего количества данных, а не от большего», Harvard Business Review (январь 2019 г.)
  5. Маккей, Дэвид, Дж. К. «Теория информации, вывод и алгоритмы обучения», Cambridge University Press. ISBN 978-0521642989 (сентябрь 2003 г.)
    Карл Эдуард Расмуссен и Кристофер К.И. Уильямс, Гауссовские процессы для машинного обучения, ISBN MIT Press 978-0262182539 (ноябрь 2005 г.)
  6. Юрген Майер, Халед Хайри и Джонатон Ховард «Рисование слона с четырьмя комплексными параметрами», American Journal of Physics 78, 648, DOI: 10.1119/1.3254017 (май 2010 г.)
  7. Фриман Дайсон 'Встреча с Энрико Ферми' Nature 427, 6972, 297, DOI: 10.1038/427297a (январь 2004 г.)
  8. Джулия Хо Единая теорема, которую должен знать каждый специалист по данным, Medium.com — TowardsDataScience (октябрь 2018 г.)
  9. Купер Дойл Сигнал и шум: как центральная предельная теорема делает возможной науку о данных», Medium.com — TowardsDataScience (сентябрь 2021 г.)
  10. Эудженио Цуккарелли Показатели производительности в машинном обучении — часть 2: регрессия, Medium.com — TowardsDataScience (январь 2021 г.)
  11. Эндрю Чжу Очистка данных от шума с помощью преобразования Фурье в Python, Medium.com — TowardsDataScience (октябрь 2021 г.)