#09#100daysofAI

Для алгоритмов обучения с учителем, например, классификации и регрессии, есть два распространенных случая, когда сгенерированная модель плохо соответствует данным: underfitting и overfitting.

Важным показателем для алгоритмов обучения с учителем является обобщение, которое измеряет, насколько хорошо модель, полученная на основе обучающих данных, может предсказать желаемый атрибут невидимых данных. Когда мы говорим, что модель недообучается или переобучается, это подразумевает, что модель плохо обобщается на невидимые данные.

Модель, которая хорошо согласуется с обучающими данными, не обязательно означает, что она будет хорошо обобщаться на невидимые данные. Потому что 1). обучающие данные — это всего лишь образцы, которые мы собираем из реального мира, которые представляют лишь часть реальности. Может случиться так, что данные обучения просто нерепрезентативны, поэтому даже модель идеально соответствует данным обучения, она не будет хорошо соответствовать невидимым данным. 2). данные, которые мы собираем, неизбежно содержат шумы и ошибки. Модель, которая идеально соответствует данным, также будет ошибочно фиксировать нежелательные шумы и ошибки, что в конечном итоге приведет к систематической ошибке и ошибкам в прогнозировании невидимых данных.

Прежде чем мы углубимся в определение недообучения и переобучения, здесь мы покажем несколько примеров того, как выглядят модели недообучения и переобучения в задаче классификации.

Недооснащение

Недообучаемая модель – это модель, которая плохо согласуется с обучающими данными, т. е. значительно отклоняется от истинной.

Одной из причин недообучения может быть то, что модель слишком упрощена для данных, поэтому она не способна уловить скрытые отношения в данных. Как видно из приведенного выше графика № (1), для разделения выборок, т.е. классификации, простая линейная модель (линия) не способна четко провести границу между выборками разных категорий, что приводит к значительной ошибочной классификации.

В качестве контрмеры, позволяющей избежать вышеуказанной причины недообучения, можно выбрать альтернативный алгоритм, способный генерировать более сложную модель из набора обучающих данных.

Переоснащение

Модель переобучения – это модель, которая хорошо согласуется с обучающими данными, то есть с небольшой ошибкой или без нее, однако она плохо обобщается на невидимые данные.

В отличие от случая недообучения, слишком сложная модель, способная вместить каждый бит данных, попадет в ловушки шумов и ошибок. Как видно из приведенного выше графика № (3), модели удалось добиться меньшего количества ошибочных классификаций в обучающих данных, но более вероятно, что она наткнется на невидимые данные.

Аналогично случаю недообучения, чтобы избежать переобучения, можно попробовать другой алгоритм, который мог бы создать более простую модель из набора обучающих данных. Или, что чаще, остается с исходным алгоритмом, сгенерировавшим модель переобучения, но добавляется regularization член к алгоритму, т.е. штрафуется слишком сложная модель, так что алгоритм направляется на создание менее сложная модель при подгонке данных.

Спасибо за чтение :)