ТЛ; DR
Эта тема раскрыта в серии из трех частей:
- Интуитивное руководство для понимания машины опорных векторов. Часть 1. Концепции, лежащие в основе SVM.
- Интуитивное руководство для понимания поддержки. Векторная машина. Часть 2. Машины опорных векторов.»
- Интуитивное руководство для понимания машины опорных векторов. Часть 3. Многоклассовая классификация с помощью SVM с использованием кода Python.

В первой части обсуждалась математическая формулировка разделяющей гиперплоскости и проблема оптимизации. Эта часть будет посвящена нелинейным границам принятия решений с помощью SVM. Чтобы понять нелинейные границы принятия решений, нужно больше сосредоточиться на концепциях, а не на приложениях.

Предположим, что существует p-мерный набор данных с двумя классами и нелинейной границей решения, поэтому данные линейно неразделимы. Самый простой подход к решению этих линейно неразделимых данных с помощью линейной модели — преобразовать предикторы в более высокий порядок, тем самым увеличивая пространство признаков.

Чтобы понять приведенное выше утверждение, давайте предположим уравнение окружности:

Теперь приведенное выше уравнение принимает следующую форму, как показано на изображении (1). Визуализируйте приведенный ниже случай следующим образом:
1. Координаты, выделенные красным, являются опорными векторами.
2. Координаты, выделенные зеленым и синим, принадлежат двум отдельным классам.

Очевидно, что оно нелинейно разделимо. Однако давайте преобразуем пространство признаков в более высокий порядок (квадратичное). Он принимает следующую форму.

Разве не интересно наблюдать, как преобразование пространства признаков более высокого порядка преобразует нелинейную задачу в линейную?

Машина опорных векторов

В предыдущем разделе мы обсуждали, как увеличение пространства признаков преобразует нелинейную задачу в линейную. Другой подход — использование функции ядра. Машина опорных векторов — это расширение опорного вектора, возникающее в результате расширения пространства признаков.

Классификатор линейных опорных векторов можно представить как

Уравнение (2) можно рассматривать как оптимизированное уравнение из уравнения (4), обсуждавшегося в части 1.

‹x, xi› представляет собой внутреннее скалярное произведение между всеми парами обучающих наблюдений.

Как обсуждалось ранее, на SVM влияют только векторы поддержки. В приведенном выше уравнении можно показать, что α отлично от нуля только для опорных векторов. Следовательно, уравнение (2) обобщается следующим образом:

где S — множество опорных точек.

Теперь ‹x, xi><(внутренний продукт) можно обобщить как некоторую функцию, которая количественно определяет сходство двух наблюдений.

Примеры функций ядра

Линейное ядро. Для определения сходства пары комбинаций используется корреляция Пирсона.

Полиномиальное ядро. Оно включает в себя установку классификатора опорных векторов в многомерном пространстве, как обсуждалось в примере с кругом, помните!

Радиальное ядро: рассмотрите уравнение (6) ниже, и вы заметите, что оно принимает очень маленькое значение, когда наблюдения находятся далеко друг от друга. Это означает, что обучающие выборки, находящиеся далеко друг от друга, практически не окажут влияния на их прогнозы. Таким образом, это ядро ​​имеет очень локальное поведение.

Увеличенное пространство признаков иногда может потребовать очень больших вычислительных затрат, и, следовательно, функции ядра помогают нам уменьшить эту сложность.

Ваше здоровье!

Приятного обучения!