При создании моделей классификации в машинном обучении одной из распространенных проблем, с которыми мы сталкиваемся, является дисбаланс данных. Например, при прогнозировании мошенничества с кредитными картами или некоторых редких заболеваний соотношение положительных и отрицательных значений может составлять 1 к 10 или даже 1 к 100. Это может привести к серьезной проблеме: модель может иметь тенденцию прогнозировать каждую запись как отрицательную для достижения положительного результата. кажущаяся высокая точность, хотя эта точность обманчива.

Как решить эту проблему? Существует три часто используемых способа: изменение порога, изменение показателя оценки и изменение метода выборки.

Изменение порога

Давайте возьмем логистическую регрессию в качестве примера. По умолчанию порог между положительным (1) и отрицательным (0) установлен на уровне 0,5. Это означает, что когда прогнозируемая оценка модели превышает 0,5, точка данных помечается как 1, а если нет, то она помечается как 0.

При работе с несбалансированными данными весьма вероятно, что большинство прогнозируемых значений при применении к новым наборам данных упадут ниже 0,5. Чтобы решить эту проблему, мы можем снизить порог с 0,5 до 0,1, что поможет сбалансировать прогнозы.

Изменение показателя оценки

Для несбалансированных наборов данных точность — не лучший показатель для оценки. В зависимости от потребностей бизнеса это может быть показатель F1, сочетающий в себе точность и полноту.

Изменение метода выборки

Это будет основная тема этой статьи, и я разобью этот основной метод на следующие группы:

Чрезмерная выборка

По сути, чтобы сделать обучающий набор более сбалансированным, мы можем получить больше записей меньшинства. Поскольку он просто повторяет записи меньшинства, он будет придавать больший вес делам меньшинства. Однако если часть записей меньшинства неверна или содержит шум, ошибка также будет увеличена.

Короче говоря, самый большой риск использования чрезмерной выборки — это переоснащение точек данных меньшинства.

Недостаточная выборка

Это соответствует тому же мышлению, что и передискретизация, но наоборот. Вместо того, чтобы повторять случаи меньшинства, мы выбираем только часть…