Введение

Машинное обучение включает в себя множество вычислений и ресурсов, не говоря уже о сопутствующих ручных усилиях по анализу данных с использованием списка переменных. В этой ситуации полезны подходы к уменьшению размерности.

Набор данных высокой размерности может быть преобразован в набор данных меньшей размерности с использованием подхода уменьшения размерности без ущерба для каких-либо критических характеристик исходных данных. Эти методы уменьшения размерности по существу подпадают под предварительную обработку данных, которая выполняется перед обучением модели.

Что такое метод уменьшения размерности в науке о данных?

Рассмотрите возможность разработки модели, которая может прогнозировать погоду на следующий день, используя текущие климатические условия. Миллионы таких характеристик окружающей среды сложно исследовать, включая солнечный свет, влажность, холод, температуру и многие другие, которые могут повлиять на текущие условия. Следовательно, выявляя признаки с высокой степенью корреляции и группируя их вместе, мы можем уменьшить количество признаков.

Чем обосновывается необходимость уменьшения размерности?

Алгоритмы машинного обучения и глубокого обучения вводят огромные объемы данных, чтобы узнать о вариациях, тенденциях и закономерностях. К сожалению, тот факт, что в таких больших наборах данных так много характеристик, иногда приводит к проклятию размерности.

Кроме того, в больших наборах данных часто возникает разреженность. Когда в обучающей модели используются функции с небольшим значением или без него, при тестировании они приводят к снижению производительности. Это известно как разреженность. Такие повторяющиеся характеристики также затрудняют группировку сопоставимых признаков данных. Методы машинного обучения и глубокого обучения можно хорошо изучить на курсах машинного обучения в Бангалоре.

Поэтому стратегии уменьшения размерности используются для борьбы с проклятием размерности. Почему уменьшение размерности полезно — это вопрос, на который есть следующие ответы:

  • Поскольку повторяющиеся данные будут удалены, будет меньше возможностей для предположений, что улучшит производительность модели.
  • Использование меньшего количества вычислительных ресурсов сэкономит время и деньги.
  • Проблема, которая будет решена после уменьшения размерности, заключается в том, что некоторые подходы к машинному обучению и глубокому обучению плохо работают с многомерными данными.
  • Поскольку кластеризация чистых и неразреженных данных проще и надежнее, эти данные будут давать более статистически значимые результаты.

Какие существуют способы уменьшения размеров?

Линейные методы

  • PCA

Одним из подходов DR в науке о данных является анализ основных компонентов (PCA). Примите во внимание группу переменных «p», которые связаны друг с другом. Этот метод объединяет набор переменных с буквой «р» в меньшую группу некоррелированных переменных с буквой «к», где (КП). Основными компонентами являются эти переменные «k», которые изменяются способом, сравнимым с исходным набором данных.

PCA использует корреляцию между функциями, которые он объединяет, чтобы определить, какие функции связаны. Полученный в результате набор данных включает меньше характеристик, линейно связанных друг с другом.

  • Факторный анализ

Это развитие анализа главных компонентов (PCA). Основная цель этого метода — не только минимизировать набор данных. Он больше фокусируется на выявлении скрытых переменных, которые являются результатами других переменных набора данных. Одна переменная не измеряет их конкретно.

Факторы — это другое название скрытых переменных. Таким образом, факторный анализ относится к процессу создания модели, которая оценивает эти скрытые переменные.

  • Линейный дискриминантный анализ

Это метод уменьшения размерности, который в основном используется для задач контролируемой классификации. В мультиклассификации логистическая регрессия неэффективна. LDA выходит на сцену как решение для устранения этого недостатка.

Он эффективно различает обучающие переменные внутри каждого из их классов. Кроме того, он отличается от PCA тем, что вычисляет линейную комбинацию входных характеристик, чтобы усилить различие между различными классами.

  • СВД

Подумайте о некоторых данных со столбцами «m». Эти «m» столбцов (признаков) проецируются на подпространство с «m» или меньшим количеством столбцов с использованием метода декомпозиции усеченных сингулярных значений (TSVD), который сохраняет свойства данных.

Примером набора данных, к которому можно применить TSVD, является набор с обзорами товаров, продаваемых в Интернете. TSVD эффективно обрабатывает нулевые значения в данных, вызванные тем, что столбец обзора в основном остается пустым. Функция TruncatedSVD() упрощает использование этого подхода.

Нелинейные методы

  • Ядро PCA

Для наборов данных, которые могут быть линейно разделены, метод PCA оказывается на удивление эффективным. Однако уменьшенный размер набора данных может быть неправильным, если мы используем его для нелинейных наборов данных. Таким образом, это точка, в которой Kernel PCA эффективна.

После выполнения функции ядра набор данных ненадолго проецируется в пространстве признаков более высокого измерения. В этом случае классы изменяются и могут быть распознаны и разделены линейно с помощью прямой линии.

  • Встраивание T-распределенных стохастических соседей

Это метод нелинейного уменьшения размерности, который в основном используется в НЛП, обработке изображений и визуализации данных. Параметр «замешательство» в T-SNE регулируется. Он демонстрирует, как отслеживать глобальные и локальные компоненты набора данных. Он дает приблизительную оценку того, сколько ближайших соседей имеет каждая точка данных.

Расхождение Кульбака-Лейблера между совместной вероятностью низкоразмерного встраивания и многомерными наборами данных уменьшается, а также преобразует сходство между различными точками данных в совместные вероятности.

  • Многомерное масштабирование

Путем уменьшения данных до меньшего размера (процесс, известный как масштабирование) данные упрощаются. Это метод нелинейного уменьшения размерности, который визуально иллюстрирует пробелы или различия между наборами характеристик. Более короткие расстояния считаются сопоставимыми, тогда как более длинные расстояния считаются разными.

  • Изометрическое картографирование (Isomap)

Это метод нелинейного уменьшения размерности, который по существу является расширением ядра PCA или MDS. Связывание каждого объекта на основе криволинейных или геодезических расстояний между их ближайшими соседями снижает размерность.

Заключение

Каждую секунду создается огромное количество данных. Поэтому не менее важно точно и с максимальным использованием имеющихся ресурсов проанализировать их. Методы уменьшения размерности поддерживают точную и эффективную предварительную обработку данных. Чтобы стать компетентным специалистом по данным, посетите топовый курс по науке о данных в Бангалоре, разработанный в партнерстве с IBM.