После разговора о проблемах, связанных с данными, о том, что модель машинного обучения не работает должным образом, в статье ниже.



Давайте перейдем ко второй части, связанной с проблемами, связанными с алгоритмами.

Предположим, вы новичок, средний или профессиональный специалист по данным. В этом случае вы, возможно, столкнулись во время своего путешествия по машинному обучению с тем, что называется недообучение и переоснащение, и задаетесь вопросом, почему это происходит? Хорошо! вы на правильном пути, так как задавать вопросы и пытаться ответить на них — это практическая часть обучения.

Главный вопрос:

что такое недообучение, переоснащение и их последствия, и как решить эту проблему?

Переоснащение

Я не буду объяснять этот вопрос, используя свое определение, так как нашел отличный и более наглядный пример:

Скажем, вы посещаете чужую страну, и таксист вас обдирает. У вас может возникнуть соблазн сказать, что все таксисты в этой стране — воры. Чрезмерное обобщение — это то, что мы, люди, делаем слишком часто, и, к сожалению, машины могут попасть в ту же ловушку, если мы не будем осторожны. В машинном обучении это называется переоснащением: это означает, что модель хорошо работает с обучающими данными, но плохо обобщает.

Орельен Жерон

Давайте подтвердим это другим примером:

При изучении этих данных модель рассматривает две функции RM и RAD, имеющие самые большие коэффициенты, в качестве основных предикторов (для простой регрессионной модели коэффициент относится к бета-версии, которая умножается, например, на функцию X1), и поэтому возникает проблема переобучения. .

Полученная модель будет иметь более высокий показатель точности для обучающих данных, но худший для данных тестирования и производства.

недооснащение

В отличие от переобучения, недообучение — это когда модель слишком проста, чтобы изучить основную структуру данных, как она должна это делать, и, следовательно, плохо работает даже с обучающими данными.

На этом этапе полученный алгоритм наверняка будет иметь низкий показатель точности на обучающих данных.

Как решить эти проблемы?

  • Разработка функций
  • Настройка гиперпараметров
  • Наличие достаточного количества данных
  • Хорошо подобранная модель
  • ..и т. д

Примечание.

Решения просто перечислены без подробностей, так как я расскажу о них в своих следующих статьях.

Спасибо за ваше время,

Посетите мой веб-сайт: Домашняя страница — IsmailOuahbi.com
Следуйте за мной в LinkedIn, чтобы узнать больше.

Не стесняйтесь обращаться ко мне по любому вопросу.