Введение. Когда дело доходит до предсказания непрерывных переменных, первое, что приходит на ум, - это регрессионная модель. Например, линейная регрессия - это наиболее часто используемая регрессионная модель, которая имеет преимущества простой реализации и высокой интерпретируемости. С другой стороны, регрессия случайного леса может обрабатывать недостающие данные и адаптируется к взаимодействиям и нелинейности. Хотя все эти алгоритмы хорошо работают для непрерывных целевых переменных в различных сценариях аналитически, они предоставляют меньше информации об уровне достоверности предсказанных чисел, особенно в реальных приложениях.

В этой статье мы рассмотрим нетрадиционную основу для прогнозирования непрерывных переменных с заданными показателями достоверности. Вместо того, чтобы рассматривать прогноз как проблему регрессии, мы превращаем проблему в проблему классификации. Эта структура также позволяет нам лучше видеть прогнозируемые результаты и может быть настроена на различные уровни достоверности. В статье в качестве примера будет использоваться оценка выручки. Учитывая множество бизнес-атрибутов для многих предприятий, мы проиллюстрируем, как мы можем предсказать доход для каждого бизнеса с учетом определенного уровня достоверности.

От регрессии к классификации

Структура требует более детальных данных об оценках достоверности и предполагаемом доходе, и это может быть достигнуто путем преобразования проблемы в проблему двоичной релевантности (BR). BR включает разложение целевой переменной на набор задач двоичной классификации, где каждая модель изучается независимо (Маджаров и др., 2012¹).

В реальных приложениях требуется разделение непрерывной целевой переменной на разные пороговые значения (метки) и обучение каждой модели классификации соответственно и независимо от одного порога. Пороги дохода могут быть установлены на основе определенных процентилей целевой непрерывной переменной или определенных чисел со специальными значениями для бизнес-вариантов использования. В этом примере оценки дохода мы используем 1000, 2000, 5000, 10 000 и 20 000 долларов в качестве пороговых значений и обучаем пять независимых классификаторов.

В этом случае, если один обучающий пример прогоняется через наборы моделей, на выходе будут пять оценок вероятности в соответствии с пятью предварительно установленными пороговыми значениями дохода. На следующем этапе мы хотим построить кривую вероятности, которая укажет корреляцию между предполагаемым доходом и оценками достоверности, начиная с пяти выходных оценок.

Линейная интерполяция для точечной оценки

Теперь, когда у нас есть пять оценок вероятности и пять пороговых значений дохода, в идеале эти пять оценок вероятности должны монотонно уменьшаться с учетом распределения меток. Например, если вероятность коммерческого дохода, превышающего 2000 долларов США, составляет 56% на основе Классификатора 2, с учетом разреженности классов для разных меток и того факта, что все классификаторы обучаются на одном и том же наборе данных, вероятность, спрогнозированная на основе Классификатора 1 (больше, чем $ 1000), как ожидается, будет выше в зависимости от распределения по классам. Мы обсудим угловой случай, когда вероятности не убывают монотонно, позже в статье.

Мы также добавим еще один порог. Доход ›= 0 долларов США, тогда вероятность для этого порога всегда равна 1. Мы наносим на график все пять точек вместе с дополнительной точкой (0,1 доллара США). Диапазон кривой вероятности, который мы можем получить, составляет от 1 до вероятности Классификатора 5 (доход ›= 20 000 долларов США, 0,04), что в идеале должно быть нижней границей. Как показано на графике, который показывает результат одного обучающего примера, мы можем построить пять наборов вероятностей и доходов и (0,1 доллара США) на 2-й оси и соединить точки 5 + 1 линейным образом.

Основываясь на графике, теперь у нас есть кривая вероятности, которая приблизительно оценивает корреляцию между уровнем достоверности в диапазоне от нижней границы (0,04) до 1. Если уровень достоверности 0,5 является целью, мы можем получить расчетную границу выручки при Оценка достоверности 50% от кривой, как показано на графике. Расчетный доход с уровнем достоверности 50% представляет собой ось Y пересечения горизонтальной линии с уровнем достоверности 0,5 и синей кривой вероятности. Это точечная оценка с уровнем достоверности 50%.

Модель Производительность

В примере прогнозирования дохода мы оцениваем эффективность классификаторов и точность интерполированного дохода. Кроме того, мы также сравниваем среднюю абсолютную ошибку (MAE) прогнозируемого дохода на основе предложенной структуры с MAE регрессии случайного леса.

На графиках ниже показаны графики прироста для пяти классификаторов.

Если мы используем 50%, 60% и 70% соответственно в качестве целевого уровня достоверности и оцениваем интерполированный расчетный доход, то для всех пороговых значений дохода матрицы неточности будут перечислены ниже. Регулируя уровень достоверности, мы можем настроить предполагаемые ошибки типа I и типа II.

В приведенной ниже таблице мы также сравниваем среднюю абсолютную ошибку (MAE) двух разных подходов. Первый подход основан на структуре, упомянутой в этой статье, и применяются различные уровни достоверности от 0,2 до 0,9. Второй подход основан на регрессии случайного леса. Общий MAE для уровней достоверности от 0,4 до 0,75 меньше, чем MAE регрессора случайного леса.

Обсуждение

Доказано, что эта структура работает эффективно и точно в сценариях использования оценки доходов бизнеса. Одним из главных преимуществ этой структуры является возможность корректировки прогнозируемого результата для различных уровней достоверности. Если ожидается более консервативная оценка, мы можем просто увеличить уровень достоверности и наоборот. Однако в некоторых случаях необходимо осторожно подходить к этой структуре.

  • Распределение может быть не монотонным, в зависимости от производительности модели. В идеальном мире, если каждый классификатор обладает значительной дискриминирующей способностью, мы можем получить монотонную убывающую кривую вероятности на основе распределения классов, и для определенного уровня достоверности возвращается только один оценочный результат. Однако в реальном мире кривая вероятности не может монотонно убывать, поскольку мы обрабатываем классификаторы независимо и игнорируем корреляцию меток. В этом случае может быть возвращено более одного оценочного результата с некоторыми уровнями достоверности. В случае использования прогнозирования доходов, поскольку мы более склонны к неагрессивной оценке, конечным результатом будет наименьшая оценка для уровня достоверности. Мы также можем настроить метки, чтобы увеличить промежуток между метками, чтобы получить монотонную кривую вероятности.
  • Существует верхняя граница для предполагаемого выхода дохода, которая является наивысшим порогом, который мы установили, например, 20 000 долларов в этом примере. Нижняя граница кривой вероятности всегда является самой низкой вероятностью из результатов всех классификаторов, и она может быть очень близкой к нулю, но не точно, например 0,04 на графике выше. Это означает, что у нас никогда не может быть оценочного значения в соответствии с оценкой достоверности ниже нижней границы вероятностей (0,04). В этом случае предполагаемый доход всегда будет ограничен 20 000 долларов, поскольку 20 000 долларов уже достаточно для нужд бизнеса.

Чтобы служить цели построения кривой вероятности, мультиклассовая классификация также может быть альтернативным подходом вместо двоичной релевантности. Недостатком BR является использование только определенной метки и игнорирование зависимости меток, что приводит к первому угловому случаю, о котором мы упоминали выше (Oscar et al., 2012²). Однако он также имеет следующие преимущества:

  • Для обучения каждой метки может применяться любой бинарный обучающийся, и даже комбинация различных бинарных классификаторов, обучающая на разных метках, будет работать.
  • Его легко распараллелить.
  • Каждый классификатор имеет достаточный объем данных для обучения, поскольку для каждой метки используется весь набор данных.
  • Он оптимизирует функцию потерь для каждой метки соответственно, и поэтому индивидуальный классификатор имеет удовлетворительную производительность.

Мы также протестировали учащихся с многоклассовой классификацией при прогнозировании доходов от бизнеса, но оказалось, что это хуже, чем подход BR.

Вывод

В этой статье мы предоставили нетрадиционную основу для точного прогнозирования непрерывной переменной и оценки уровня достоверности прогноза. Мы также обсудили применение фреймворка в бизнес-сценариях использования и ограничения фреймворка. Несмотря на то, что структура увеличивает сложность модели за счет преобразования обычного решения с одной моделью в решение с несколькими моделями, преимущество видимости взаимосвязи между уровнями достоверности и прогнозируемыми значениями очень ценно. В быстро меняющейся бизнес-среде гибкость настройки уровней достоверности может быть применена ко многим сценариям использования, что, в свою очередь, может помочь в принятии адаптивных бизнес-решений в соответствии с желаемыми бизнес-результатами.

использованная литература

[1] Маджаров, Г., Кочев, Д., Горгжевик, Д., Дероски, С .: Обширное экспериментальное сравнение методов обучения с несколькими метками. Распознавание образов. 45 (9), стр. 3084–3104 (2012).

[2] Оскар Луасес, Хорхе Диес, Хосе Барранкеро, Хуан Хосе дель Коз, Антонио Бахамонде: Эффективность бинарной релевантности для классификации с несколькими ярлыками (2012)