Как индекс Джини из экономики стал важной концепцией для машинного обучения

Фон

Индекс Джини — это популярный инструмент в науке о данных, который отвечает за определение того, как разбивается дерево решений. Однако большинство практиков не знают, что индекс Джини изначально был разработан в экономике как мера имущественного неравенства. В этом посте я хочу подробно остановиться на индексе Джини и его происхождении.

Что такое индекс Джини?

Введенный Коррадо Джинив 1912 году, индекс Джини (или коэффициент) измеряет распределение дохода внутри страны или штата. Индекс Джини, равный 0, указывает на полное равенство, когда все имеют одинаковый доход; это равномерное распределение. В то время как индекс 1 означает максимальное неравенство, при котором практически все богатство принадлежит одному человеку.

По данным Всемирного банка, в Словении один из худших индексов Джини — 0,24, а в ЮАР — один из лучших — 0,64. Конечно, это всего лишь одна статистика, описывающая экономическое состояние страны. Как и все в статистике, ей нужен контекст и дополнительные данные, чтобы объяснить всю картину.

Кривая Лоренца

Наглядным способом увидеть индекс Джини в действии является кривая Лоренца:

Диагональная пунктирная оранжевая линия представляет абсолютное равенство, поскольку изменение совокупного богатства совершенно линейно с изменением совокупного населения.

Кривая Лоренца предназначена для представления графика зависимости реального совокупного богатства от совокупного населения. Чем дальше кривая Лоренца от диагональной линии, тем больше неравенство доходов.

Площадь между кривой Лоренца и диагональной линией прямо пропорциональна индексу Джини.

Математически это означает:

Где A и B — соответствующие области, показанные на графике выше, это видно как линия Лоренца …