Что, почему, возможное решение и окончательная полезность

В одной из моих предыдущих статей Недостаточная выборка: повышение производительности при несбалансированных данных:



Я применил метод недостаточной выборки большинства на основе кластерных центроидов (CCMUT) к данным переписи взрослого населения и доказал, что улучшение характеристик модели по сравнению с современной моделью «Статистический подход к взрослым» Прогноз уровня доходов переписи »[1]. Но есть скрытый недостаток усовершенствованной модели, разработанной с использованием CCMUT.

Недостаток CCMUT / E-CCMUT:

Разработанная модель дала точность проверки 90,78%, что выше, чем у современных 88,16%. Но при разработке модели CCMUT удалил или занижил выборку 68% экземпляров с меткой 0 (экземпляры большинства классов). Таким образом, эти 68% экземпляров не включены ни в обучающий набор, ни в набор проверки модели. Таким образом, можно создать другой набор данных, при этом тестовый набор сохраняет эти экземпляры с недостаточной выборкой, и все они имеют метку 0. После этого обученная и проверенная модель тестируется на тестовом наборе так создано.

К моему полному удивлению, только 3 из 16 810 экземпляров классифицированы правильно. Это большая потенциальная угроза для разрабатываемой модели. В то время как современная модель Чакрабарти и Бисваса [1] дала 16 000 из тех же 16 810 экземпляров правильно, таким образом сохранив универсальность модели. Теперь возникает вопрос: если модель, разработанная путем включения неполной выборки, привела к такой ошибке, в чем именно заключается улучшение производительности за счет неполной выборки?

Что ж, да, с помощью недостаточной выборки производительность наверняка улучшилась. Набор проверки модели, созданной с помощью недостаточной выборки, содержал 3151 экземпляр смешанных меток (0 и 1). В этом наборе проверки модель правильно классифицировала 2 861 экземпляр из 3 151 (точность 90,78%), в то время как современная модель при тестировании на этих 3 151 экземпляре дала 2 589 правильных прогнозов из 3151 раз (точность 82,16%). Так что в этом отношении, безусловно, произошел рост производительности. Но бок о бок есть и главный случай недостаточной производительности.

Причина недостатка:

Основная причина такого недостатка заключается в создании CCMUT и E-CCMUT. Эти алгоритмы созданы с использованием геометрии пространственных объектов и теории кластеризации. Следовательно, экземпляры с недостаточной выборкой на самом деле не имеют значения. Это скорее выбросы, которые часто оказываются на границе или на неправильной стороне границы принятия решения, установленной любым алгоритмом машинного обучения. Другими словами, эти случаи можно интерпретировать как те, которые трудно правильно классифицировать. Итак, я просто перематываю рабочее утверждение алгоритма CCMUT / E-CCMUT с исправлением:

«Точку данных, которая наиболее удалена от центроида кластера, труднее всего классифицировать / предсказать, в то время как экземпляр, ближайший к центроиду кластера, легче всего классифицировать / предсказать » .

Таким образом, среди экземпляров, которые легче классифицировать / прогнозировать, CCMUT / E-CCMUT работает лучше и, следовательно, повышает производительность. Но при тестировании на трудно классифицируемых экземплярах CCMUT / E-CCMUT не работает. Это связано с тем, что при недостаточной выборке обучающий набор не получает достаточного количества экземпляров, которые трудно классифицировать / прогнозировать, и только приближает экземпляры к центроиду кластера основного класса, которые легче классифицировать / прогнозировать. И при тестировании на таких примерах (сложных случаях) модель полностью сбивается с толку и в большинстве случаев предсказывает неправильные метки.

Способы устранения недостатка:

  1. Недостаточная выборка должна производиться на очень небольшой процент (1–10%). Затем модель получает возможность изучить некоторые трудные для классификации экземпляры. Но это может потерпеть неудачу, если это не приведет к улучшению производительности в собственном наборе проверки.
  2. Недостаточная выборка с последующим случайным выбором: здесь после недостаточной выборки менее чем на 50% среди экземпляров с недостаточной выборкой может быть выполнен случайный выбор точек данных. Затем эти случайно выбранные точки данных могут быть включены в обучающий набор модели. Также оставшиеся экземпляры с недостаточной выборкой, выбранные не случайным образом, могут составить тестовый набор.

Я сформулировал эти способы полностью интуитивно, и за ними нет математического обоснования. Кроме того, эти способы не могут всегда приводить к улучшению производительности для каждого набора данных.

В чем заключается полезность CCMUT / E-CCMUT?

Процедура ранжирования (самый простой для классификации - - - ›сложный для классификации) играет очень важную роль для определения характера выборок. Таким образом, CCMUT / E-CCMUT можно использовать для уточнения или очистки данных. Если набор данных подготовлен, но содержит шумные экземпляры, которые могут представлять угрозу при разработке модели машинного обучения. Таким образом, создатели / компиляторы наборов данных (UCI / Kaggle) могут использовать CCMUT / E-CCMUT для заниженной выборки таких экземпляров, что делает его подходящим для прогнозной аналитики.

МОТИВАЦИЯ ДЛЯ ДАННОЙ СТАТЬИ

Я хотел бы поблагодарить Виктора Депласса за то, что он мотивировал эту мою статью, подробно прочитав мою статью « Недостаточная выборка: повышение производительности при несбалансированных данных » И подверг сомнению последовательность алгоритмов недостаточной выборки, CCMUT и E-CCMUT, поскольку я был убежден, что они являются идеальными усилителями производительности. Я также хотел бы поблагодарить команду TDS за предоставленную мне платформу для обмена моими идеями в форме статей, а также за то, чтобы они были подтверждены моими читателями.

Большое спасибо За науку о данных !!!

ССЫЛКИ

[1] Чакрабарти, Н. и Бисвас, С., 2018. Статистический подход к прогнозированию уровня доходов взрослого населения при переписи населения. Препринт arXiv arXiv: 1810.10076.

Для личных контактов относительно статьи или обсуждений машинного обучения / интеллектуального анализа данных или любого отдела науки о данных, не стесняйтесь обращаться ко мне в LinkedIn