5 причин использовать линейную регрессию вместо деревьев с градиентным усилением (или хотя бы попробовать)

Введение

В эпоху глубокого обучения и моделей с триллионами параметров легко игнорировать старую добрую линейную регрессию, которая существует уже более двух столетий. Конечно, одной только линейной регрессии недостаточно для многих современных приложений ИИ. Даже при рассмотрении только табличных данных многие модели превосходят линейную регрессию. В частности, древовидные алгоритмы с градиентным усилением являются одними из самых популярных для структурированных данных, а их производительность и универсальность заставляют многих специалистов по данным игнорировать более простые альтернативы.

В этом посте я подробно расскажу, почему бустинг-деревья не всегда лучший выбор, и приведу пять причин, по которым вы все еще можете попробовать линейную регрессию.

Отказ от ответственности. Несмотря на слегка провокационное название, я не утверждаю, что линейная регрессия может постоянно превосходить бустинг-деревья! Тем не менее, я указываю аргументы в пользу того, чтобы, по крайней мере, попробовать первое, прежде чем переходить ко второму.

Причина 1: линейная регрессия может экстраполироваться за пределы области обучения.

Одним из существенных преимуществ линейной регрессии по сравнению с бустинг-деревьями является то, что она может экстраполировать за пределы области обучения. Линейная регрессия может предсказать новые точки данных со значениями признаков выше или ниже, чем те, которые наблюдались при обучении.

С другой стороны, при наличии значения признака выше, чем наблюдаемое во время обучения, древовидные алгоритмы (деревья решений, случайные леса, усиленные деревья) будут обрабатывать этот признак так, как если бы он имел то же значение, что и верхняя граница обучения. домен.

Например, предположим, что обучающие данные охватывают значения признаков от 1 до 10, и ваша модель предсказывает новую точку данных со значением признака 12. В этом случае линейная регрессия будет использовать это значение 12 для вычисления выходных данных, тогда как бустинг-деревья будет обрабатывать переменную так, как если бы ее значение было равно 10. Использование первого значения вместо второго не всегда приводит к более точному прогнозу, но часто приводит к такому результату.

Причина 2: линейная регрессия позволяет выполнять итерации быстрее.

Предположим, вы стремитесь добиться быстрого прогресса в самом начале своего исследовательского процесса и вам нужно делать быстрые итерации, когда вы пробуете разные идеи. В этом случае линейная регрессия может предложить лучший опыт, чем бустинг-деревья, благодаря более высокой производительности, особенно во время обучения. С другой стороны, разработка признаков часто бывает более сложной в линейной регрессии (мы еще вернемся к этому).

Еще одна особенность линейной регрессии заключается в том, что у нее мало гиперпараметров. В основном речь идет о методе регуляризации (L1, L2, Elasticnet) и силе регуляризации. Опять же, это позволяет экспериментатору больше сосредоточиться на моделировании данных и проблеме разработки признаков.

Наконец, даже если вы не планируете использовать линейную регрессию в качестве производственной модели, это может помочь вам в выборе признаков: при регуляризации L1 процесс оптимизации попытается установить коэффициенты неважных переменных равными нулю. Еще одно предостережение: помните, что даже если переменная может оказаться бесполезной для линейной модели, она все же может оказаться полезной для более сложной, поэтому относитесь к этим результатам с долей скептицизма.

Причина 3: при правильном проектировании признаков линейная регрессия может быть очень мощной.

Вы можете подумать, что линейная регрессия — довольно слабая модель, и, возможно, она нестандартна. Однако линейная регрессия может быть очень мощной, если у вас есть надлежащая разработка функций. Поскольку он предполагает линейную связь между функциями и выходными данными, моделирование нелинейностей потребует значительных манипуляций с функциями, таких как дискретизация, комбинация, преобразование и т. д.

Например, цены на подержанные автомобили снижаются с возрастом, за исключением старых автомобилей, которые считаются винтажными и цена которых имеет тенденцию к увеличению. Выявление этой двойственности позволяет вам добавить «винтажный» флаг к вашим функциям и, таким образом, эффективно сочетать две разные функции. Вы только что добавили нелинейный элемент в свою модель прогнозирования! В процессе вы также узнали кое-что ценное о своих данных (подробнее об этом позже).

Когда мы смотрим на небольшие наборы данных с ограниченным количеством функций, линейная регрессия устойчива к переоснащению. Более сложные алгоритмы могут начать улавливать шум в этих сценариях, что приведет к плохому обобщению невидимых данных.

Со многими функциями линейные модели могут начать переобучать, но добавление регуляризации и более избирательный подход к используемым переменным обычно решает проблему.

Причина 4: линейная регрессия более интерпретируема.

Линейная регрессия более интерпретируема. Его легче понять и объяснить другим, поскольку его прогнозы по своей сути легче интерпретировать, чем ансамбль форсированных деревьев из нескольких деревьев решений. Интерпретируемость также помогает улучшить модель, поскольку вы получаете более четкое представление о том, какие функции могут быть полезны. Мы должны оговориться в этом утверждении: в случаях, когда данные требуют от вас создания множества сложных и абстрактных функций, интерпретируемость модели быстро падает, поскольку функции становятся сложными для понимания.

Линейная регрессия также обеспечивает простую интерпретацию важности признаков в виде коэффициентов регрессии. В отличие от важности функций, предоставляемых бустинг-деревьями, коэффициенты линейной регрессии указывают направление, в котором функция влияет на ваш прогноз: вверх или вниз.

Причина 5: линейная регрессия способствует тщательному знанию данных.

Линейная регрессия — это простая модель, которая делает серьезные предположения о данных. Например, он предполагает линейную связь между функциями и выходными данными, а также нормальное распределение переменных. Эти свойства должны быть проверены и, при необходимости, реализованы посредством манипулирования функциями.

Линейная регрессия требует, чтобы пользователи искали правильные отношения в данных, а не рассматривали модель машинного обучения как модель черного ящика, которую можно применять без разбора. В результате пользователям необходимо более подробно изучить данные и лучше ознакомиться с их особенностями. В процессе они узнают больше о своей проблеме, например, в упомянутом выше примере с подержанной машиной.

Заключение

Деревья с градиентным усилением, несомненно, являются мощными моделями регрессии и классификации. Они полностью заслужили свою популярность в соревнованиях по машинному обучению. Однако иногда вам не нужны самые большие и блестящие; вам нужно что-то, что делает работу быстро. Это особенно верно на этапе разработки, когда вы пытаетесь получить более глубокие знания о данных и вам необходимо создать ценные функции. Возможность перебирать модели за секунды, а не за минуты, может оказаться бесценной.

Линейная регрессия менее причудлива, чем некоторые другие алгоритмы, но было бы ошибкой сразу отказаться от нее. Когда я преподавал, я часто настаивал на том, чтобы мои ученики начинали именно с этого, и я до сих пор убежден, что частое использование линейной регрессии сделает вас лучшим специалистом по данным.

PS: Если вы нашли эту статью полезной, интересной или заслуживающей внимания, я был бы признателен за несколько аплодисментов и репостов!