Простые объяснения 20 наиболее важных алгоритмов машинного обучения менее чем за 10 секунд каждый.

Машинное обучение — это метод анализа данных, который автоматизирует процессы разработки моделей. Это направление искусственного интеллекта, основанное на идее, что системы могут учиться на данных, выявлять закономерности и принимать решения с минимальным вмешательством пользователя [2].

Алгоритмы машинного обучения используются в самых разных приложениях, включая фильтрацию электронной почты, обнаружение мошеннических транзакций по кредитным картам, торговлю акциями, компьютерное зрение, распознавание речи и многое другое.

Существует три основных типа машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.

Обучение с учителем — это когда данные помечаются, а алгоритмы учатся предсказывать метки. Например, в наборе данных изображений кошек и собак метки будут «кошка» и «собака». Алгоритм научился бы определять, какие изображения содержат кошек, а какие — собак.

Неконтролируемое обучение — это когда данные не помечены, а алгоритмы пытаются найти закономерности в данных. Например, в наборе данных изображений животных алгоритм может сгруппировать изображения кошек, собак и львов как «животных».

Обучение с подкреплением — это когда алгоритм учится методом проб и ошибок. Например, перед алгоритмом обучения с подкреплением может быть поставлена ​​задача пройти лабиринт. Алгоритм будет пробовать разные пути через лабиринт, пока не найдет кратчайший путь к выходу.

Вместо того, чтобы тратить время на разложение этих трех типов моделей машинного обучения, я ограничу описания конкретными алгоритмами и реализациями — 20 из них. Я считаю, что они входят в топ-20 наиболее важных для современных случаев использования машинного обучения.

Любой пример, приведенный ниже для любого алгоритма, является одним примером и не означает, что это единственный пример, полностью представляющий, на что этот алгоритм способен или может достичь.

1. Линейная регрессия: способ прогнозирования на основе известных данных. Например, вы можете использовать линейную регрессию, чтобы предсказать, сколько денег вы заработаете в будущем, исходя из того, сколько денег вы заработали в прошлом. Как насчет того, сколько может стоить ваша недвижимость?

2. Логистическая регрессия: тип статистического анализа, который используется для прогнозирования вероятности возникновения события. Это тип анализа, который используется, когда зависимая переменная является двоичной (0 или 1, да или нет).

3. Машины опорных векторов: модель, которая может учиться на примерах и делать прогнозы. Он часто используется для классификации вещей по группам.

4. Деревья решений: подход, помогающий вам принять решение путем выявления возможных вариантов. Вы можете выбрать предпочтительный вариант, посмотрев на то, что представлено.

5. Случайные леса: используйте их, чтобы предсказывать вещи. Он работает, рассматривая множество различных сценариев, которые могут повлиять на то, что вы пытаетесь предсказать; затем он делает предположение, основанное на том, что он узнал.

6. Градиентное усиление: метод, объединяющий несколько более слабых моделей для создания более сильной. Более слабые модели разрабатываются с использованием алгоритма градиентного спуска, а окончательная модель представляет собой взвешенную комбинацию всех более слабых (в сравнении) моделей.

7. Нейронные сети: алгоритм машинного обучения, который используется для моделирования сложных закономерностей в данных. Нейронные сети похожи на другие алгоритмы машинного обучения, но они состоят из большого количества взаимосвязанных узлов обработки или нейронов, которые могут научиться распознавать шаблоны входных данных.

8. Анализ главных компонентов (PCA): метод, используемый для поиска закономерностей в данных. Он просматривает данные и находит направление, в котором данные изменяются больше всего.

9. Линейный дискриминантный анализ: метод машинного обучения, который помогает определить набор переменных (признаков), наиболее важных для прогнозирования целевой переменной. LDA — это способ анализа данных, который можно использовать для прогнозирования результатов действий. Он используется для определения взаимосвязей между различными значениями в данных, а затем для использования этих взаимосвязей для прогнозирования будущего.

10. Кластеризация K-средних: метод, используемый в машинном обучении для группировки данных, чтобы данные с большей вероятностью были связаны друг с другом. Это подход, помогающий группам точек данных (например, элементов в базе данных) путем нахождения их ближайших аналогов и группировки их вместе.

11. Иерархическая кластеризация — это способ группировки элементов данных для облегчения понимания. Он работает, разделяя данные на группы, а затем просматривая, как эти группы связаны. Это подход к группированию точек данных в иерархию. Алгоритм начинается с каждой точки данных в своей группе, а затем объединяет ближайшие группы, пока не останется только одна группа.

12. DBSCAN: алгоритм, который можно использовать для группировки точек данных вместе. Он работает, просматривая плотность точек данных и группируя их, если они расположены близко друг к другу.

13. Смешанные модели Гаусса: для прогнозирования результатов используется смесь линейных и нелинейных моделей. Это тип модели машинного обучения, которая помогает прогнозировать поведение группы объектов. Модель принимает набор точек входных данных и использует их для прогнозирования поведения нового набора точек входных данных.

14. Автоэнкодеры: алгоритм машинного обучения, который может научиться декодировать или реконструировать последовательность символов из набора входных данных. Это тип нейронной сети, который используется для обучения сжатию данных. Цель состоит в том, чтобы изучить представление (кодирование) [3] для данных, которые меньше исходных данных (но при этом содержат всю важную информацию).

15. Изолирующий лес: используйте его для обнаружения выбросов в данных. Он работает путем случайного выбора точек данных и создания дерева решений. Если точка является выбросом, ее будет легче изолировать от остальных данных.

16. SVM одного класса: как и подход с изолированным лесом, его можно использовать для поиска выбросов: оценка для поиска выбросов заключается в создании линии, которая лучше всего разделяет данные на две группы. Любая точка данных, которая находится далеко от этой линии, считается выбросом.

17. Локально-линейное вложение: метод, используемый для уменьшения размерности данных. Это достигается путем нахождения линейного представления данных, близкого к исходным данным. Это способ представления набора данных в виде последовательности точек в пространстве. Таким образом, вы можете легче увидеть отношения между точками данных и сделать более точные прогнозы.

18. t-SNE [1]: помогает визуализировать данные за счет уменьшения размерности данных. t-SNE работает, создавая карту точек данных, а затем находя лучший способ представить эти точки в пространстве более низкого измерения.

19. Анализ независимых компонентов (ICA): используется для поиска скрытых закономерностей в данных. Он делает это, просматривая отношения между различными переменными в данных. Это метод разделения различных частей сигнала, которые микшируются.

20. Факторный анализ: используется для уменьшения объема данных, которые необходимо проанализировать для поиска закономерностей. Это достигается путем определения групп элементов данных, которые имеют сходное поведение. Кроме того, он используется для уменьшения объема данных, которые необходимо проанализировать для выявления закономерностей; это достигается путем определения групп элементов данных со схожим поведением. По сути, это метод, используемый для понимания того, какие характеристики набора данных необходимы для прогнозирования результата.

Подумайте о том, чтобы поделиться со мной своими мыслями, если у вас есть какие-либо изменения / исправления, которые вы можете порекомендовать, или рекомендации по дальнейшему расширению этой темы.

Также, пожалуйста, подпишитесь на мой еженедельный информационный бюллетень:



Я написал о следующем, связанном с этим сообщением; они могут быть вам интересны:

6 моделей НЛП с открытым исходным кодом для анализа настроений; Один поднимается на вершину



Будущее НЛП — за квантовой физикой



Обучение с учителем: 31 самая важная модель; 5 обязательны для изучения



Ссылки.

1. Sklearn.коллектор.TSNE. (н.д.). Scikit-Learn. Получено 20 июля 2022 г. с https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html.

2. Машинное обучение: что это такое и почему это важно | САС. https://www.sas.com/en_us/insights/analytics/machine-learning.html

3. 1.4 Подбор модели и обучение модели — Вильнюсский университет. http://web.vu.lt/mif/a.buteikis/wp-content/uploads/PE_II_Book/1-4-learning-algorithms.html

Повышение уровня кодирования

Спасибо, что являетесь частью нашего сообщества! Перед тем, как ты уйдешь:

  • 👏 Хлопайте за историю и подписывайтесь на автора 👉
  • 📰 Смотрите больше контента в публикации Level Up Coding
  • 🔔 Подписывайтесь на нас: Twitter | ЛинкедИн | "Новостная рассылка"

🚀👉 Присоединяйтесь к коллективу талантов Level Up и найдите прекрасную работу