Типы, ближайший сосед, регрессия
Машинное обучение давно считается ключевым элементом искусственного интеллекта.
Что такое машинное обучение?
Машинное обучение — это ветвь искусственного интеллекта (ИИ), которая позволяет компьютерам учиться на данных и повышать свою производительность при выполнении задач без явного программирования.
Пример. Классическим методом, который мы можем использовать для машинного обучения, будет «Распознаватель рукописных цифр».
Учтите, что числа вверху как метки, а числа внизу как рукописные цифры (хорошо, я знаю, что оба написаны от руки, но для простоты рассмотрим их). Когда смотришь на вторую цифру слева, можно запутаться, 4 это или 7.
Как отличить написанную от руки цифру, чтобы найти правильный номер или значение ?
- Для этого нам нужно собрать различные наборы данных рукописных цифр.
- Обучите компьютерную систему, используя этот набор данных, который предоставит вам обученную модель.
- Используйте эту обученную модель, чтобы предсказать заданные рукописные цифры.
Типы машинного обучения :
Корни машинного обучения — статистика. Линейная регрессия и байесовская статистика считаются основой машинного обучения.
Категории машинного обучения можно разделить на:
- Контролируемое обучение : представьте, мы передаем изображение дорожного знака в качестве входных данных и говорим, чтобы идентифицировать дорожный знак (ограничение скорости, знак остановки и т. д.). Здесь, чтобы идентифицировать данные, мы обучаем машину, используя помеченные данные, поэтому это называется контролируемым машинным обучением.
- Неконтролируемое обучение : здесь мы не тренируемся с какими-либо помеченными данными, но нам нужно обнаружить структуру данных, чтобы идентифицировать данные. Это можно сделать следующим образом:
==› Кластеризация: группировка похожих вещей. Например, выяснить, какой клиент совершил покупку аналогичного продукта.
==› Визуализация данных
- Обучение с подкреплением: это автономная самообучающаяся система, которая учится методом проб и ошибок. Обычно используется в агентах ИИ, таких как беспилотные автомобили, которые должны работать в окружающей среде и запрашивать отзывы для улучшения.
==› Он выполняет действия с целью достижения наилучших результатов.
Существует также полуконтролируемое обучение, которое представляет собой комбинацию контролируемого и неконтролируемого обучения. Например, классификация текстов.
Когда мы обучаем модель машинного обучения, у нас должно быть два отдельных файла (обучающий и тестовый). Мы должны обучить модель, используя данные поезда, и найти точность модели, используя тестовые данные. Хотя существует вероятность «переобучения», то есть точность модели будет высокой, когда мы проверяем модель с данными поезда, но точность будет другой, когда мы проверяем тестовые данные.
Что такое переоснащение?
Переоснащение происходит, когда точность между обученными данными и новыми данными различается.
Теперь давайте перейдем к другому важному методу, используемому для классификации в приложениях машинного обучения или ИИ.
Классификатор ближайших соседей :
Он фактически классифицирует элементы, находя наиболее похожие элементы из набора обучающих данных, и присваивает метки новым элементам.
Здесь даны обучающие наборы и тестовые наборы. Белые и темные точки — это обучающие наборы или элементы обучающих данных, а звездочка — тестовые данные.
Обе звезды или элементы теста относятся к классу белых, потому что оба их ближайших соседа белые.
- Классификатор ближайших соседей — это определение расстояния или сходства между экземплярами.
- Это расстояние принимается как геометрическое расстояние или евклидово расстояние.
Поиск сходства двух изображений :
- Когда мы делаем два изображения, мы сравниваем пиксели в верхнем левом углу и так далее до середины и, наконец, в правом нижнем углу.
- Если они имеют похожий цвет (оттенки серого), сравнив оба изображения.
- Мы узнаем, похожи ли два изображения или нет, поскольку они имеют более похожие цвета или нет.
Приложение ИИ, использующее ближайших соседей, представляет собой рекомендательные системы.
- Идея такова: люди будут вести себя в будущем так же, как и в прошлом.
Это стало возможным благодаря использованию коллаборативной фильтрации.
- Совместная фильтрация: это метод рекомендации товаров на основе данных других пользователей, чьи вкусы совпадают с вашими. Здесь фильтр используется для того, чтобы передать вам или порекомендовать товары, которые вам понравятся, в то время как другие товары будут проигнорированы.
Но есть проблемы из-за этих фильтров, об этом ниже.
Фильтрация проблем с пузырями и их решения :
- Пузырьки фильтров могут иметь негативное влияние, поскольку они ограничивают пользователей в доступе к другому содержимому и информации.
- Это можно контролировать, только в определенной степени используя прошлую историю пользователей.
- Другим способом было бы предоставление пользователям возможности настраивать системы рекомендаций.
Система рекомендаций для приложения для онлайн-покупок :
У нас есть данные от 6 пользователей об их истории покупок, упомянутых ниже.
Здесь самые последние покупки находятся в самом правом углу. Чтобы применить метод ближайшего соседа, мы должны подсчитать похожие товары, которые купили пользователи. Это можно сделать, подсчитав одинаковые предметы.
Например, Янина и Йони купили футболки, поэтому их сходство можно рассчитать как -> 1 (поскольку у них есть 1 похожий товар в истории покупок).
Теперь давайте спрогнозируем следующую покупку клиента Трэвиса, у которого есть история :
Здесь, когда мы ищем сходство истории покупок Трэвиса с каждым пользователем, мы можем заметить:
- Вилле и Трэвис имеют 3 сходства.
- Они оба купили -› футболки, солнцезащитные очки и шлепанцы.
Следовательно, следующая предполагаемая покупка или рекомендуемый товар для Трэвиса — «солнцезащитный крем».
Теперь давайте перейдем к части регрессии, интересному и наиболее простому для понимания (интерпретируемому) методу.
Линейная регрессия :
Он производит числовой прогноз или результат, который будет не целым числом (0,1,2,3 и т. д.), а целым числом (3,14 и т. д.).
Таким образом, линейная регрессия полезна в ситуациях, когда:
- Цена продукта.
- Расстояние до препятствия.
- So on…..
Метод или процесс, используемый в линейной регрессии :
В линейной регрессии мы используем значения различных функций для прогнозирования результата.
Мы суммируем вклад каждой функции, и этот процесс суммирования известен как линейная комбинация.
Пример — Думая о линейной регрессии как о счете за покупку продуктов, содержание будет таким :
- Вы купили -› 2,5 кг яблок, 2,0 кг арбузов и 3 бутылки молока.
- Если указанная выше цена товара будет (за 1 кг) -› 2$ за яблоко, 4$ за арбуз и 3$ за бутылку молока.
- Тогда общий счет будет:
==> 2.5 × 2 + 2.0 × 4 + 3 × 3
==> 5 + 8 + 9 = 22$
Вес или коэффициент :
В приведенном выше примере цены на различные продукты известны как Вес или Коэффициент.
Этот вес важен, например :
- Когда мы рассчитываем ожидаемую продолжительность жизни с помощью линейной регрессии, вес курения (сигарет в день) составляет примерно минус полгода. Это означает, что жизнь курящего человека будет короче.
Линейная регрессия для определения ожидаемой продолжительности жизни :
В) Допустим, было проведено исследование, которое выявило, что ожидаемая продолжительность жизни некурящих женщин, которые не едят овощи, составляет 80 лет. Предположим далее, что мужчинам в среднем нравится на 5 лет меньше. Кроме того, каждая сигарета в день сокращает продолжительность жизни на 1/2 года, а горсть овощей в день увеличивает ее на 1 год.
Ответ) Здесь упоминается, что общий срок службы:
- Женщины = 80 лет
- Мужчины = 75 лет (80–5)
Ну, если мы хотим рассчитать общую продолжительность жизни для конкретного человека, формула будет выглядеть так :
Где годы курения будут :
Кроме того, количество овощей в день будет увеличиваться в течение года как :
Теперь предскажите ожидаемую продолжительность жизни следующих людей :
Это будет выглядеть так:
Следовательно, А — 81 год, В — 73 года и С — 84 года.
Еще одна проблема, которая наблюдалась с 1800-х годов, заключается в том, чтобы найти подходящий вес, который оптимизирует соответствие между фактическим и прогнозируемым выходом.
Это можно сделать одним из методов, известных как классические методы наименьших квадратов.
Свойства линейной регрессии :
- Простой
- Интерпретируемость (Возможность найти смысл самостоятельно)
- Лучшая эффективность (надежный способ предсказать будущее)
Приложения машинного обучения линейной регрессии :
- Прогнозирование кликабельности в интернет-рекламе.
- Прогноз стоимости программного обеспечения.
- Прогнозирование страховых расходов.
- Прогнозирование уровня преступности.
Теперь давайте посмотрим на двоюродного брата линейной регрессии, а именно:
Логистическая регрессия :
- Ближайший сосед выдает метки в качестве выходных данных, а линейная регрессия выдает числовой вывод.
- Линейная регрессия лучше, чем ближайший сосед, с точки зрения интерпретируемости, потому что легко понять, как и почему делаются прогнозы.
- Если нам нужен метод, который производит выходные данные, такие как ближайший сосед, и имеет интерпретируемость, такую как линейная регрессия, мы используем логистическую регрессию.
- Например, мы можем делать прогнозы больше, чем просто «да» или «нет», например, рукописные цифры, каждая из которых имеет 10 возможных меток.
Применение логистической регрессии :
- Прогнозирование финансовых рисков
- Медицинские исследования
Метод ближайшего соседа, линейная регрессия и логистическая регрессия — это не единственные методы машинного обучения, но существуют сотни методов машинного обучения, которые представляют собой одно и то же:
- Извлечение шаблонов и зависимостей из данных.
- Исходя из этого, определите явление или предскажите будущее.
Ограничения машинного обучения :
- Сложность задачи (иногда мы не можем сами идентифицировать некоторые данные, например рукописные данные)
- Количество тренировочных данных (меньше плохо, больше хорошо)
- Качество данных (лучшее качество, лучший результат)
Прежде чем стать или называть себя экспертом в области машинного обучения, вы должны знать, что такое MNIST ?
«M» означает «модифицированный», а «NIST» означает «Национальный институт стандартов и технологий».
MNIST — это большая база данных рукописных цифр, которая используется в различных системах обработки изображений для обучения.
Тадаааа!! Вы стали экспертом по машинному обучению