Результаты опроса Stack Overflow 2022 г.

Гендерный разрыв в оплате труда, или систематическая разница в оплате труда между работающими мужчинами и женщинами, является одной из наиболее изучаемых и обсуждаемых тем. Здесь мы представляем результаты исследования гендерного разрыва в оплате труда на основе Опроса Stack Overflow от мая 2022 года с набором данных, уже общедоступным на Kaggle. Это исследование является продолжением моего предыдущего анализа с тем же набором данных. Как и в предыдущих историях, анализ основан на значениях Shapley Additive exPlanations (SHAP). Полные подробности анализа также доступны в публичной записной книжке на Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор стран и типов разработчиков с репрезентативно большим количеством респондентов;
  • изменение масштаба столбца меток до тысяч долларов США в год;
  • удаление 5% (5%) ответивших с наибольшими (наименьшими) компенсациями;
  • отбрасывание неинтересных для данного анализа столбцов;
  • замена нулевых значений.

Шаг 2 — настройка модели машинного обучения для прогнозирования годовой компенсации

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 56 тысяч долларов США в год, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели, составляющей около 74 тысяч долларов США в год ( при одинаковой годовой компенсации в размере около 100 тысяч долларов США в год для каждого респондента).

Шаг 3 — объяснение полученной модели машинного обучения.

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы стоимости SHAP выражены в тысячах долларов США в год.

Во-первых, мы изучаем диапазон значений SHAP для основного интересующего нас признака (переменная Gender):

Здесь мы видим явное наличие гендерного разрыва в оплате труда среди респондентов, поскольку мужчинам платят в среднем примерно на 3,3 тысячи долларов США в год больше, чем женщинам (при прочих равных условиях, таких как страна, тип работы, тип компании). , образование и др.).

Разница между значениями SHAP для мужчин и женщин по странам вместе со стандартным отклонением 1 сигма:

Более выраженное распределение можно получить, разделив полученное значение SHAP на среднюю ожидаемую заработную плату в соответствующей стране:

Как мы видим, процентный разрыв присутствует во всех странах из выборки опроса, и прослеживается явная тенденция к уменьшению разрыва в странах с более высокими средними зарплатами разработчиков (таких как США, Австралии, Канаде и Великобритании).

Еще одно наглядное распределение можно увидеть среди разных должностей разработчиков (переменная DevType):

Как мы видим, процентный разрыв наименьший для инженеров-менеджеров и инженеров по данным, в то время как Full-stack и мобильные разработчики, специалисты по данным и специалистам по машинному обучению, как правило, имеют самый высокий процентный разрыв. сильный> среди респондентов.

Кроме того, разница в гендерном разрыве практически одинакова для разных размеров организаций (переменная OrgSize):

а также по разным уровням образования респондентов:

Мы пришли к выводу, что наиболее важными факторами гендерной оплаты среди разработчиков, как видно из Опроса Stack Overflow от мая 2022 года, являются местоположение и должность разработчика.

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.