Как обрабатывать несбалансированный набор данных?

Проблемы с несбалансированными данными:

Склонность к прогнозированию большего класса

Меньшие классы обычно неправильно классифицируются

Набор данных: https://raw.githubusercontent.com/subashgandyer/datasets/main/great_customers.csv

Особенности этого набора данных

['user_id', 'age', 'workclass', 'salary', 'education_rank',
       'marital-status', 'occupation', 'race', 'sex', 'mins_beerdrinking_year',
       'mins_exercising_year', 'works_hours', 'tea_per_year',
       'coffee_per_year', 'great_customer_class'],
      dtype='object'

Данные сильно несбалансированы

При работе с несбалансированными данными мы не рекомендуем использовать категориальную точность в качестве основного критерия оценки. Нет ничего необычного в том, чтобы наблюдать высокую точность оценки при тестировании модели классификации, обученной на очень несбалансированных данных.

Метрика производительности

Precision/Specificity: сколько выбранных экземпляров релевантно.

Отзыв/Чувствительность: сколько релевантных экземпляров выбрано.

Оценка F1: среднее гармоническое точности и полноты.

AUC: соотношение между истинно положительными показателями и ложноположительными показателями

Матрица путаницы

Решение: репликация данных (выборка):

Повторяйте имеющиеся данные до тех пор, пока количество образцов не станет сопоставимым.

Методы выборки

Передискретизация — Дублирование образцов из класса меньшинства

Undersampling — Удаление образцов из класса большинства

Сочетание обоих методов случайной выборки

Счастливого обучения!

Как обрабатывать несбалансированный набор данных?

Метрика производительности

Вопросы по теме