Так что же такое машинное обучение?

Я уверен, что вы уже слышали об этом термине, и, если удивительно, нет, просто взгляните на презентации Apple или Google; даже Макдональдс что-то делает. На самом деле не только они: если вы посмотрите страницу Google Trends для машинного обучения, вы заметите тенденцию к росту популярности и интереса с течением времени. Так что все об этом говорят ...

Вы легко можете найти множество популярных вариантов использования машинного обучения. Я уверен, что вы проверяете Amazon, когда вам нужно купить новую одежду или обувь. И тогда вы увидите список рекомендованных вам элементов . По сути, речь идет о машинном обучении. Возможно, вы также слышали об автономных транспортных средствах, которые проходят испытания, или, возможно, вы взаимодействовали с чат-ботом. Почти каждый второй бренд переосмысливает свою стратегию, чтобы задействовать машинное обучение и тем или иным образом использовать его огромную мощь.

Но что такое машинное обучение?

Я начну с популярного определения, данного Томом Митчеллом:

Считается, что компьютерная программа учится на опыте E в отношении некоторого класса задач T и показателя производительности P, если ее производительность при выполнении задач в T, измеренная с помощью P, улучшается с опытом E.

Не волнуйтесь, если вы этого не поняли, даже я сначала не понял полностью. По сути, он говорит о том, что предположим, что у вас есть много-много данных, с помощью машинного обучения вы можете найти закономерности в этих данных, скрытых на виду, которые компьютерная программа может изучить. Эта компьютерная программа, преобразованная в модель машинного обучения, при работе с новыми данными теперь может с определенной уверенностью определять, можно ли здесь найти этот шаблон.

По сути, происходит следующее: когда вы создаете модель машинного обучения, вы обучаете модель с огромными объемами исторических данных, которые имеют тот же контекст, что и проблема, которую вы пытаетесь решить. Модель изучает определенные закономерности, что помогает в идентификации, распознавании или прогнозировании. Например, вы можете построить модель машинного обучения, чтобы идентифицировать объекты на изображении, такие как кошка или собака; Или модель машинного обучения для прогнозирования цены дома с учетом нескольких определенных параметров, таких как количество комнат, площадь дома и т. Д. Но всего этого можно достичь только в том случае, если модель была обучена должным образом с использованием правильных данных.

Прежде чем двигаться дальше, давайте рассмотрим две важные концепции.

Классификация

Классификация - это процесс помещения каждого предмета в определенную категорию. Например, идентификация кошки на изображении будет означать классификацию этого объекта на изображении как кошку. Проще говоря, присвоение ярлыка чему-либо будет называться классификацией.

В сценарии машинного обучения данные для задачи классификации будут иметь множество параметров, называемых функциями, для объекта, который необходимо классифицировать, и метки. Шаблон в данном случае будет состоять из этих функций, которые вместе приводят нас к метке class.

Регрессия

Проблемы регрессии связаны с взаимозависимостями переменных. Существуют независимые переменные и зависимая переменная, значение которой, как следует из названия, зависит от независимых переменных. Обычно все значения числовые, то есть непрерывные, и их можно найти путем выбора определенной математической функции. Таким образом, прогнозирование стоимости чего-либо, например, цены дома, автомобиля или даже стоимости акций, относится к проблемам регрессии. Здесь образец будет представлять собой значения независимых переменных, ведущих к значению зависимой переменной.

Возвращаясь назад, этот шаблон, о котором мы говорили, может быть представлен двумя разными способами, либо упомянутым в данных явно, и в этом случае есть метка или зависимое значение, либо скрытым в данных, которые необходимо найти. По сути, машинное обучение подразделяется на два типа:

  • Контролируемое обучение
  • Неконтролируемое обучение

Обучение с учителем

Контролируемое обучение относится к тому классу алгоритмов машинного обучения, которые работают с данными, содержащими метки. Допустим, вы хотите узнать, есть ли на определенном изображении Apple. Таким образом, вы будете тренировать свою модель машинного обучения с изображениями, которые содержат Apple, и изображениями, которые не содержат. Когда вы столкнетесь с новыми данными, ваша модель теперь скажет вам с определенной уверенностью, содержит ли новое изображение Apple или нет. Хорошим примером этого является случай, когда вы хотите выполнить какую-либо задачу классификации, например, вышеупомянутую проблему обнаружения объекта. Или задача регрессии, в которой мы сопоставляем некоторую форму ввода, состоящую из значений, функции для прогнозирования непрерывного значения. Итак, в этом случае мы уже знаем, как должен выглядеть вывод, имея представление о том, что существует связь между вводом и переменной target.

Обучение без учителя

Неконтролируемое обучение относится к классу алгоритмов машинного обучения, которые работают над поиском закономерностей в данных без предоставления каких-либо меток. Таким образом, вы предоставляете своей модели машинного обучения множество данных, а модель определяет свои собственные шаблоны, структуру и связи в точках данных. Интересным и наиболее распространенным применением неконтролируемого обучения является автоматическая кластеризация данных, например, используемая при построении моделей сегментации клиентов или используемая Google для кластеризации похожих новостных статей. вместе.

В этом посте я хотел дать краткое введение в машинное обучение и его широкие категории. Есть много других классов методов машинного обучения, таких как обучение с подкреплением, ассоциативный майнинг или обнаружение аномалий, которые очень интересны и определенно заслуживают внимания!

Если вы хотите увидеть больше таких статей, перейдите на Портал Data Science Portal.



Спасибо за прочтение!