Элементы машинного обучения

Типы, ближайший сосед, регрессия

Машинное обучение давно считается ключевым элементом искусственного интеллекта.

Что такое машинное обучение?

Машинное обучение — это ветвь искусственного интеллекта (ИИ), которая позволяет компьютерам учиться на данных и повышать свою производительность при выполнении задач без явного программирования.

Пример. Классическим методом, который мы можем использовать для машинного обучения, будет «Распознаватель рукописных цифр».

Учтите, что числа вверху как метки, а числа внизу как рукописные цифры (хорошо, я знаю, что оба написаны от руки, но для простоты рассмотрим их). Когда смотришь на вторую цифру слева, можно запутаться, 4 это или 7.

Как отличить написанную от руки цифру, чтобы найти правильный номер или значение ?

Для этого нам нужно собрать различные наборы данных рукописных цифр.
Обучите компьютерную систему, используя этот набор данных, который предоставит вам обученную модель.
Используйте эту обученную модель, чтобы предсказать заданные рукописные цифры.

Типы машинного обучения :

Корни машинного обучения — статистика. Линейная регрессия и байесовская статистика считаются основой машинного обучения.

Категории машинного обучения можно разделить на:

Контролируемое обучение : представьте, мы передаем изображение дорожного знака в качестве входных данных и говорим, чтобы идентифицировать дорожный знак (ограничение скорости, знак остановки и т. д.). Здесь, чтобы идентифицировать данные, мы обучаем машину, используя помеченные данные, поэтому это называется контролируемым машинным обучением.
Неконтролируемое обучение : здесь мы не тренируемся с какими-либо помеченными данными, но нам нужно обнаружить структуру данных, чтобы идентифицировать данные. Это можно сделать следующим образом:

==› Кластеризация: группировка похожих вещей. Например, выяснить, какой клиент совершил покупку аналогичного продукта.

==› Визуализация данных

Обучение с подкреплением: это автономная самообучающаяся система, которая учится методом проб и ошибок. Обычно используется в агентах ИИ, таких как беспилотные автомобили, которые должны работать в окружающей среде и запрашивать отзывы для улучшения.

==› Он выполняет действия с целью достижения наилучших результатов.

Существует также полуконтролируемое обучение, которое представляет собой комбинацию контролируемого и неконтролируемого обучения. Например, классификация текстов.

Когда мы обучаем модель машинного обучения, у нас должно быть два отдельных файла (обучающий и тестовый). Мы должны обучить модель, используя данные поезда, и найти точность модели, используя тестовые данные. Хотя существует вероятность «переобучения», то есть точность модели будет высокой, когда мы проверяем модель с данными поезда, но точность будет другой, когда мы проверяем тестовые данные.

Что такое переоснащение?

Переоснащение происходит, когда точность между обученными данными и новыми данными различается.

Теперь давайте перейдем к другому важному методу, используемому для классификации в приложениях машинного обучения или ИИ.

Классификатор ближайших соседей :

Он фактически классифицирует элементы, находя наиболее похожие элементы из набора обучающих данных, и присваивает метки новым элементам.

Здесь даны обучающие наборы и тестовые наборы. Белые и темные точки — это обучающие наборы или элементы обучающих данных, а звездочка — тестовые данные.

Обе звезды или элементы теста относятся к классу белых, потому что оба их ближайших соседа белые.

Классификатор ближайших соседей — это определение расстояния или сходства между экземплярами.
Это расстояние принимается как геометрическое расстояние или евклидово расстояние.

Поиск сходства двух изображений :

Когда мы делаем два изображения, мы сравниваем пиксели в верхнем левом углу и так далее до середины и, наконец, в правом нижнем углу.
Если они имеют похожий цвет (оттенки серого), сравнив оба изображения.
Мы узнаем, похожи ли два изображения или нет, поскольку они имеют более похожие цвета или нет.

Приложение ИИ, использующее ближайших соседей, представляет собой рекомендательные системы.

Идея такова: люди будут вести себя в будущем так же, как и в прошлом.

Это стало возможным благодаря использованию коллаборативной фильтрации.

Совместная фильтрация: это метод рекомендации товаров на основе данных других пользователей, чьи вкусы совпадают с вашими. Здесь фильтр используется для того, чтобы передать вам или порекомендовать товары, которые вам понравятся, в то время как другие товары будут проигнорированы.

Но есть проблемы из-за этих фильтров, об этом ниже.

Фильтрация проблем с пузырями и их решения :

Пузырьки фильтров могут иметь негативное влияние, поскольку они ограничивают пользователей в доступе к другому содержимому и информации.
Это можно контролировать, только в определенной степени используя прошлую историю пользователей.
Другим способом было бы предоставление пользователям возможности настраивать системы рекомендаций.

Система рекомендаций для приложения для онлайн-покупок :

У нас есть данные от 6 пользователей об их истории покупок, упомянутых ниже.

Здесь самые последние покупки находятся в самом правом углу. Чтобы применить метод ближайшего соседа, мы должны подсчитать похожие товары, которые купили пользователи. Это можно сделать, подсчитав одинаковые предметы.

Например, Янина и Йони купили футболки, поэтому их сходство можно рассчитать как -> 1 (поскольку у них есть 1 похожий товар в истории покупок).

Теперь давайте спрогнозируем следующую покупку клиента Трэвиса, у которого есть история :

Здесь, когда мы ищем сходство истории покупок Трэвиса с каждым пользователем, мы можем заметить:

Вилле и Трэвис имеют 3 сходства.
Они оба купили -› футболки, солнцезащитные очки и шлепанцы.

Следовательно, следующая предполагаемая покупка или рекомендуемый товар для Трэвиса — «солнцезащитный крем».

Теперь давайте перейдем к части регрессии, интересному и наиболее простому для понимания (интерпретируемому) методу.

Линейная регрессия :

Он производит числовой прогноз или результат, который будет не целым числом (0,1,2,3 и т. д.), а целым числом (3,14 и т. д.).

Таким образом, линейная регрессия полезна в ситуациях, когда:

Цена продукта.
Расстояние до препятствия.
So on…..

Метод или процесс, используемый в линейной регрессии :

В линейной регрессии мы используем значения различных функций для прогнозирования результата.

Мы суммируем вклад каждой функции, и этот процесс суммирования известен как линейная комбинация.

Пример — Думая о линейной регрессии как о счете за покупку продуктов, содержание будет таким :

Вы купили -› 2,5 кг яблок, 2,0 кг арбузов и 3 бутылки молока.
Если указанная выше цена товара будет (за 1 кг) -› 2$ за яблоко, 4$ за арбуз и 3$ за бутылку молока.
Тогда общий счет будет:

==> 2.5 × 2 + 2.0 × 4 + 3 × 3

==> 5 + 8 + 9 = 22$

Вес или коэффициент :

В приведенном выше примере цены на различные продукты известны как Вес или Коэффициент.

Этот вес важен, например :

Когда мы рассчитываем ожидаемую продолжительность жизни с помощью линейной регрессии, вес курения (сигарет в день) составляет примерно минус полгода. Это означает, что жизнь курящего человека будет короче.

Линейная регрессия для определения ожидаемой продолжительности жизни :

В) Допустим, было проведено исследование, которое выявило, что ожидаемая продолжительность жизни некурящих женщин, которые не едят овощи, составляет 80 лет. Предположим далее, что мужчинам в среднем нравится на 5 лет меньше. Кроме того, каждая сигарета в день сокращает продолжительность жизни на 1/2 года, а горсть овощей в день увеличивает ее на 1 год.

Ответ) Здесь упоминается, что общий срок службы:

Женщины = 80 лет
Мужчины = 75 лет (80–5)

Ну, если мы хотим рассчитать общую продолжительность жизни для конкретного человека, формула будет выглядеть так :

Где годы курения будут :

Кроме того, количество овощей в день будет увеличиваться в течение года как :

Теперь предскажите ожидаемую продолжительность жизни следующих людей :

Это будет выглядеть так:

Следовательно, А — 81 год, В — 73 года и С — 84 года.

Еще одна проблема, которая наблюдалась с 1800-х годов, заключается в том, чтобы найти подходящий вес, который оптимизирует соответствие между фактическим и прогнозируемым выходом.

Это можно сделать одним из методов, известных как классические методы наименьших квадратов.

Свойства линейной регрессии :

Простой
Интерпретируемость (Возможность найти смысл самостоятельно)
Лучшая эффективность (надежный способ предсказать будущее)

Приложения машинного обучения линейной регрессии :

Прогнозирование кликабельности в интернет-рекламе.
Прогноз стоимости программного обеспечения.
Прогнозирование страховых расходов.
Прогнозирование уровня преступности.

Теперь давайте посмотрим на двоюродного брата линейной регрессии, а именно:

Логистическая регрессия :

Ближайший сосед выдает метки в качестве выходных данных, а линейная регрессия выдает числовой вывод.
Линейная регрессия лучше, чем ближайший сосед, с точки зрения интерпретируемости, потому что легко понять, как и почему делаются прогнозы.
Если нам нужен метод, который производит выходные данные, такие как ближайший сосед, и имеет интерпретируемость, такую как линейная регрессия, мы используем логистическую регрессию.
Например, мы можем делать прогнозы больше, чем просто «да» или «нет», например, рукописные цифры, каждая из которых имеет 10 возможных меток.

Применение логистической регрессии :

Прогнозирование финансовых рисков
Медицинские исследования

Метод ближайшего соседа, линейная регрессия и логистическая регрессия — это не единственные методы машинного обучения, но существуют сотни методов машинного обучения, которые представляют собой одно и то же:

Извлечение шаблонов и зависимостей из данных.
Исходя из этого, определите явление или предскажите будущее.

Ограничения машинного обучения :

Сложность задачи (иногда мы не можем сами идентифицировать некоторые данные, например рукописные данные)
Количество тренировочных данных (меньше плохо, больше хорошо)
Качество данных (лучшее качество, лучший результат)

Прежде чем стать или называть себя экспертом в области машинного обучения, вы должны знать, что такое MNIST ?

«M» означает «модифицированный», а «NIST» означает «Национальный институт стандартов и технологий».

MNIST — это большая база данных рукописных цифр, которая используется в различных системах обработки изображений для обучения.

Тадаааа!! Вы стали экспертом по машинному обучению