Типы, ближайший сосед, регрессия

Машинное обучение давно считается ключевым элементом искусственного интеллекта.

Что такое машинное обучение?

Машинное обучение — это ветвь искусственного интеллекта (ИИ), которая позволяет компьютерам учиться на данных и повышать свою производительность при выполнении задач без явного программирования.

Пример. Классическим методом, который мы можем использовать для машинного обучения, будет «Распознаватель рукописных цифр».

Учтите, что числа вверху как метки, а числа внизу как рукописные цифры (хорошо, я знаю, что оба написаны от руки, но для простоты рассмотрим их). Когда смотришь на вторую цифру слева, можно запутаться, 4 это или 7.

Как отличить написанную от руки цифру, чтобы найти правильный номер или значение ?

  • Для этого нам нужно собрать различные наборы данных рукописных цифр.
  • Обучите компьютерную систему, используя этот набор данных, который предоставит вам обученную модель.
  • Используйте эту обученную модель, чтобы предсказать заданные рукописные цифры.

Типы машинного обучения :

Корни машинного обучения — статистика. Линейная регрессия и байесовская статистика считаются основой машинного обучения.

Категории машинного обучения можно разделить на:

  • Контролируемое обучение : представьте, мы передаем изображение дорожного знака в качестве входных данных и говорим, чтобы идентифицировать дорожный знак (ограничение скорости, знак остановки и т. д.). Здесь, чтобы идентифицировать данные, мы обучаем машину, используя помеченные данные, поэтому это называется контролируемым машинным обучением.
  • Неконтролируемое обучение : здесь мы не тренируемся с какими-либо помеченными данными, но нам нужно обнаружить структуру данных, чтобы идентифицировать данные. Это можно сделать следующим образом:

==› Кластеризация: группировка похожих вещей. Например, выяснить, какой клиент совершил покупку аналогичного продукта.

==› Визуализация данных

  • Обучение с подкреплением: это автономная самообучающаяся система, которая учится методом проб и ошибок. Обычно используется в агентах ИИ, таких как беспилотные автомобили, которые должны работать в окружающей среде и запрашивать отзывы для улучшения.

==› Он выполняет действия с целью достижения наилучших результатов.

Существует также полуконтролируемое обучение, которое представляет собой комбинацию контролируемого и неконтролируемого обучения. Например, классификация текстов.

Когда мы обучаем модель машинного обучения, у нас должно быть два отдельных файла (обучающий и тестовый). Мы должны обучить модель, используя данные поезда, и найти точность модели, используя тестовые данные. Хотя существует вероятность «переобучения», то есть точность модели будет высокой, когда мы проверяем модель с данными поезда, но точность будет другой, когда мы проверяем тестовые данные.

Что такое переоснащение?

Переоснащение происходит, когда точность между обученными данными и новыми данными различается.

Теперь давайте перейдем к другому важному методу, используемому для классификации в приложениях машинного обучения или ИИ.

Классификатор ближайших соседей :

Он фактически классифицирует элементы, находя наиболее похожие элементы из набора обучающих данных, и присваивает метки новым элементам.

Здесь даны обучающие наборы и тестовые наборы. Белые и темные точки — это обучающие наборы или элементы обучающих данных, а звездочка — тестовые данные.

Обе звезды или элементы теста относятся к классу белых, потому что оба их ближайших соседа белые.

  • Классификатор ближайших соседей — это определение расстояния или сходства между экземплярами.
  • Это расстояние принимается как геометрическое расстояние или евклидово расстояние.

Поиск сходства двух изображений :

  • Когда мы делаем два изображения, мы сравниваем пиксели в верхнем левом углу и так далее до середины и, наконец, в правом нижнем углу.
  • Если они имеют похожий цвет (оттенки серого), сравнив оба изображения.
  • Мы узнаем, похожи ли два изображения или нет, поскольку они имеют более похожие цвета или нет.

Приложение ИИ, использующее ближайших соседей, представляет собой рекомендательные системы.

  • Идея такова: люди будут вести себя в будущем так же, как и в прошлом.

Это стало возможным благодаря использованию коллаборативной фильтрации.

  • Совместная фильтрация: это метод рекомендации товаров на основе данных других пользователей, чьи вкусы совпадают с вашими. Здесь фильтр используется для того, чтобы передать вам или порекомендовать товары, которые вам понравятся, в то время как другие товары будут проигнорированы.

Но есть проблемы из-за этих фильтров, об этом ниже.

Фильтрация проблем с пузырями и их решения :

  • Пузырьки фильтров могут иметь негативное влияние, поскольку они ограничивают пользователей в доступе к другому содержимому и информации.
  • Это можно контролировать, только в определенной степени используя прошлую историю пользователей.
  • Другим способом было бы предоставление пользователям возможности настраивать системы рекомендаций.

Система рекомендаций для приложения для онлайн-покупок :

У нас есть данные от 6 пользователей об их истории покупок, упомянутых ниже.

Здесь самые последние покупки находятся в самом правом углу. Чтобы применить метод ближайшего соседа, мы должны подсчитать похожие товары, которые купили пользователи. Это можно сделать, подсчитав одинаковые предметы.

Например, Янина и Йони купили футболки, поэтому их сходство можно рассчитать как -> 1 (поскольку у них есть 1 похожий товар в истории покупок).

Теперь давайте спрогнозируем следующую покупку клиента Трэвиса, у которого есть история :

Здесь, когда мы ищем сходство истории покупок Трэвиса с каждым пользователем, мы можем заметить:

  • Вилле и Трэвис имеют 3 сходства.
  • Они оба купили -› футболки, солнцезащитные очки и шлепанцы.

Следовательно, следующая предполагаемая покупка или рекомендуемый товар для Трэвиса — «солнцезащитный крем».

Теперь давайте перейдем к части регрессии, интересному и наиболее простому для понимания (интерпретируемому) методу.

Линейная регрессия :

Он производит числовой прогноз или результат, который будет не целым числом (0,1,2,3 и т. д.), а целым числом (3,14 и т. д.).

Таким образом, линейная регрессия полезна в ситуациях, когда:

  • Цена продукта.
  • Расстояние до препятствия.
  • So on…..

Метод или процесс, используемый в линейной регрессии :

В линейной регрессии мы используем значения различных функций для прогнозирования результата.

Мы суммируем вклад каждой функции, и этот процесс суммирования известен как линейная комбинация.

Пример — Думая о линейной регрессии как о счете за покупку продуктов, содержание будет таким :

  • Вы купили -› 2,5 кг яблок, 2,0 кг арбузов и 3 бутылки молока.
  • Если указанная выше цена товара будет (за 1 кг) -› 2$ за яблоко, 4$ за арбуз и 3$ за бутылку молока.
  • Тогда общий счет будет:

==> 2.5 × 2 + 2.0 × 4 + 3 × 3

==> 5 + 8 + 9 = 22$

Вес или коэффициент :

В приведенном выше примере цены на различные продукты известны как Вес или Коэффициент.

Этот вес важен, например :

  • Когда мы рассчитываем ожидаемую продолжительность жизни с помощью линейной регрессии, вес курения (сигарет в день) составляет примерно минус полгода. Это означает, что жизнь курящего человека будет короче.

Линейная регрессия для определения ожидаемой продолжительности жизни :

В) Допустим, было проведено исследование, которое выявило, что ожидаемая продолжительность жизни некурящих женщин, которые не едят овощи, составляет 80 лет. Предположим далее, что мужчинам в среднем нравится на 5 лет меньше. Кроме того, каждая сигарета в день сокращает продолжительность жизни на 1/2 года, а горсть овощей в день увеличивает ее на 1 год.

Ответ) Здесь упоминается, что общий срок службы:

  • Женщины = 80 лет
  • Мужчины = 75 лет (80–5)

Ну, если мы хотим рассчитать общую продолжительность жизни для конкретного человека, формула будет выглядеть так :

Где годы курения будут :

Кроме того, количество овощей в день будет увеличиваться в течение года как :

Теперь предскажите ожидаемую продолжительность жизни следующих людей :

Это будет выглядеть так:

Следовательно, А — 81 год, В — 73 года и С — 84 года.

Еще одна проблема, которая наблюдалась с 1800-х годов, заключается в том, чтобы найти подходящий вес, который оптимизирует соответствие между фактическим и прогнозируемым выходом.

Это можно сделать одним из методов, известных как классические методы наименьших квадратов.

Свойства линейной регрессии :

  • Простой
  • Интерпретируемость (Возможность найти смысл самостоятельно)
  • Лучшая эффективность (надежный способ предсказать будущее)

Приложения машинного обучения линейной регрессии :

  • Прогнозирование кликабельности в интернет-рекламе.
  • Прогноз стоимости программного обеспечения.
  • Прогнозирование страховых расходов.
  • Прогнозирование уровня преступности.

Теперь давайте посмотрим на двоюродного брата линейной регрессии, а именно:

Логистическая регрессия :

  • Ближайший сосед выдает метки в качестве выходных данных, а линейная регрессия выдает числовой вывод.
  • Линейная регрессия лучше, чем ближайший сосед, с точки зрения интерпретируемости, потому что легко понять, как и почему делаются прогнозы.
  • Если нам нужен метод, который производит выходные данные, такие как ближайший сосед, и имеет интерпретируемость, такую ​​​​как линейная регрессия, мы используем логистическую регрессию.
  • Например, мы можем делать прогнозы больше, чем просто «да» или «нет», например, рукописные цифры, каждая из которых имеет 10 возможных меток.

Применение логистической регрессии :

  • Прогнозирование финансовых рисков
  • Медицинские исследования

Метод ближайшего соседа, линейная регрессия и логистическая регрессия — это не единственные методы машинного обучения, но существуют сотни методов машинного обучения, которые представляют собой одно и то же:

  • Извлечение шаблонов и зависимостей из данных.
  • Исходя из этого, определите явление или предскажите будущее.

Ограничения машинного обучения :

  • Сложность задачи (иногда мы не можем сами идентифицировать некоторые данные, например рукописные данные)
  • Количество тренировочных данных (меньше плохо, больше хорошо)
  • Качество данных (лучшее качество, лучший результат)

Прежде чем стать или называть себя экспертом в области машинного обучения, вы должны знать, что такое MNIST ?

«M» означает «модифицированный», а «NIST» означает «Национальный институт стандартов и технологий».

MNIST — это большая база данных рукописных цифр, которая используется в различных системах обработки изображений для обучения.

Тадаааа!! Вы стали экспертом по машинному обучению