ML для нубов: Пейзаж

Автор: Манас Редди

Это просто шутка, даже если они засудят меня за все, что я стою, продолжайте. Вы можете взять мои три доллара.

Хорошо, если вдаваться в подробности.

Машинное обучение и искусственный интеллект — это ключевое слово, которое СТОЛЬКО используется, и люди понятия не имеют, что оно означает, как оно работает или как оно используется. Картинка с людьми, роботы («Спасибо, Илон»), настоящие терминаторы и CNBC.

Хотя на самом деле это очень простая концепция. Если бы у кого-то из вас были домашние животные, вы бы помнили, когда вы хотели, чтобы ваш питомец что-то сделал, вы пытаетесь чему-то научить, и если ваш питомец это делает, вы даете ему лакомство, и это не хорошо, вы его наказываете. То же самое и здесь: вы даете своему компьютеру задание, назначаете правильную взаимосвязь и позволяете компьютеру делать все, что он хочет. Когда компьютер определяет правильную взаимосвязь, он вознаграждается. Таким образом, компьютер вычисляет правила, чтобы назначить правильную взаимосвязь. Что-то вроде «Бадди» вашего золотистого ретривера.

Например, рассмотрим: программирование спам-фильтра с использованием подходов к программированию

Во-первых, вы должны рассмотреть, как выглядят спам-письма. Вы можете заметить, что некоторые слова или фразы («4u», «кредитная карта», «бесплатно» и «потрясающе») часто встречаются в строке темы.
Затем создайте алгоритм обнаружения для каждого из замеченных вами шаблонов, и ваша программа будет помечать электронные письма на основе слов или фраз, которые вы указали.
Просто, но неэффективно, потому что спамеры просто изменят «ключевые слова», и вам придется идти и менять их снова. Посмотрите, как утомительно

Напротив, спам-фильтр, основанный на машинном обучении, автоматически изучает правила на основе того, что вы классифицируете как спам, и соответствующим образом фильтрует его. Гораздо меньше накладных расходов, проще в обслуживании и, следовательно, более эффективно.

Еще одна область, в которой сияет машинное обучение, — это проблемы, которые либо слишком сложны, либо для них нет известного алгоритма. Обнаружение языка, вы можете жестко закодировать алгоритм, который измеряет интенсивность высоких тонов и использовать его для распознавания слов, но алгоритм не будет масштабироваться для идентификации слов в шумной среде. Лучшим решением было бы написать алгоритм, который обучается сам по себе, учитывая множество примеров записи слов.

Подводя итог, машинное обучение отлично подходит для:

Проблемы, для которых существующие решения требуют много тонкой настройки или длинного списка правил
Сложные проблемы, для которых использование традиционного подхода не дает решения
Нестабильная среда
Получение информации о сложных проблемах и больших объемах данных.

Типы машинного обучения

Машинное обучение можно разделить на три типа:

Независимо от того, обучаются ли они под наблюдением человека (контролируемое, неконтролируемое, полуконтролируемое и обучение с подкреплением)
Могут ли они учиться постепенно на лету (онлайн или пакетное обучение)
Работают ли они, просто сравнивая новые точки данных с известными точками данных, или вместо этого обнаруживая закономерности в обучающих данных и создавая прогностическую модель. (Экземпляр против модели)

Основные проблемы машинного обучения

Недостаточное количество обучающих данных. Чтобы малыш узнал, что такое мяч, достаточно указать на мяч и сказать «мяч». Машинное обучение еще не совсем готово. Даже для решения одной задачи обычно требуются тысячи примеров, а для сложных задач, таких как распознавание изображений или речи, могут потребоваться миллионы примеров.
Нерепрезентативные обучающие данные: для того, чтобы модель хорошо обобщалась, крайне важно, чтобы обучающие данные были репрезентативными для новых случаев, которые вы хотите обобщить. Используя нерепрезентативный обучающий набор, мы склонны обучать модель, которая вряд ли будет точной.
Данные низкого качества: очевидно, что если ваш тренировочный набор полон ошибок, выбросов и шума, системе будет труднее обнаруживать основные закономерности, поэтому ваша система с меньшей вероятностью будет работать хорошо.
Нерелевантные функции: как говорится «мусор на входе, мусор на выходе». Ваша система сможет обучаться только в том случае, если обучающие данные содержат достаточно релевантных функций и не слишком много нерелевантных. Важнейшей частью успеха является наличие хорошего набора функций для обучения.
Переобучение данных: предположим, что ваша девушка изменяет вам("Это удар слишком близко к дому"), и обобщать, что все девушки плохие, неверно. (“Виновен”)Машинное обучение также склонно к этому, когда модель настолько хорошо соответствует заданным данным, что при наличии общих данных она не может правильно их подобрать.
Недообучение: как вы, вероятно, догадались, недообучение — это противоположность переоснащению, когда модель слишком проста для изучения базовой структуры данных.

Я знаю, что это многое нужно принять. Но поверьте мне, это становится легче, если немного попрактиковаться. Если вы подумаете о различных сценариях, вы тоже можете относиться к этому, например, к вещам, которые просто происходят вокруг вас. Я считаю, что учиться чему-либо становится легче. Поэтому, если вы что-то изучаете, просто подумайте о чем-то, что использует ту же логику, и вы всегда будете это помнить.

ML для нубов: Пейзаж

Вопросы по теме