Спенсер Марлен-Старр
Этот исследовательский отчет был написан аспирантом магистерской программы инженерной аналитики данных в Университете Джорджа Мейсона под руководством эконометриста доктора Энтони Дэвиса, на чьей работе он основан.

В этой статье предлагается процедура исчерпывающей регрессии (ER), контролируемый алгоритм обучения для целей выбора переменных, основанный на алгоритме регрессии всех подмножеств (ASR) (хотя ASR иногда уже известен как исчерпывающая регрессия), известные свойства обычных наименьших квадратов (OLS). ) оценки и замена стандартных критериев выбора оптимальной модели кросс-модельной статистикой хи-квадрат, используемой для обнаружения ложно выбранных переменных. Тем не менее, этот алгоритм ER сохраняет непомерно высокие проблемы времени выполнения, которые не позволяют использовать стандартный алгоритм ASR для типов многомерных наборов данных, с которыми аналитик сегодня обычно сталкивается на практике. Чтобы обойти эту проблему, предлагается еще одна модификация, оценочная исчерпывающая регрессия (EER), вычислительно возможная версия ER. Его свойства в контексте непрерывного линейного регрессионного анализа и моделирования исследуются с помощью моделирования методом Монте-Карло. Кроме того, то, как алгоритм EER сравнивается с LASSO, а также вариантами обратного исключения и прямого выбора ступенчатой ​​регрессии, три хорошо известных эталонных алгоритма выбора переменных также исследуются с помощью сравнительных экспериментов Монте-Карло на случайно сгенерированных синтетических наборах данных, где истинная базовая модель, характеризующая каждый набор данных известен заранее. С эконометрической точки зрения, без учета времени выполнения, стандартный алгоритм ASR превосходит LASSO и Stepwise в том, что он основан на хорошо известных свойствах оценщика и, как следствие, не является специальным методом интеллектуального анализа данных, таким как LASSO и Stepwise Regression.

1. Предыстория и введение

Регрессионный анализ используется, когда аналитик данных или исследователь хочет проверить первоначальную гипотезу (обычно основанную на какой-либо ранее существовавшей теоретической основе) систематическим эмпирическим образом на наборе данных наблюдений, будь то выборка или вся популяция. интерес. В частности, какой регрессионный анализ, который в практических обстоятельствах почти всегда является многомерным регрессионным анализом, а не ситуацией одномерной регрессии, стремится определить, какова вероятность наблюдения ваших данных при условии, что ваша исходная гипотеза верна. Этот подход эффективен, когда у вас есть подходящая исходная гипотеза, выведенная из надежной совокупности знаний (например, из социальных наук или научной области, или от опытных профессионалов в вашей отрасли). Однако Лимер (Leamer, 1978 и 1983) напоминает нам, что, когда у аналитика или исследователя нет адекватной основы для формирования первоначальной гипотезы перед сопоставлением данных, он вместо этого выбирает несколько десятков или более различных возможных спецификаций многомерной регрессии и выбирает спецификацию, которая наилучшим образом соответствует данным и достигает наивысшей общей статистической значимости модели, тогда с его стороны было бы неискренним притворяться, будто он сформулировал ту гипотезу, которую он все время выдвигал в качестве исходной гипотезы. В этой ситуации все наоборот, и это не только нечестно как исследовательская практика, но и нарушает стандартные правила статистического вывода.

Алгоритмы машинного обучения, ранее известные как методы интеллектуального анализа данных, используются в регрессионном анализе, когда либо невозможно, либо осуществимо, либо предпочтительно проверить исходную гипотезу, которая сформулирована достаточно подробно, чтобы повлечь за собой спецификацию регрессии. Другими словами, конечная цель многих, если не большинства, алгоритмов машинного обучения — служить генераторами гипотез, а не обязательно валидаторами или фальсификаторами гипотез.

Алгоритмы машинного обучения на основе регрессии (т. е. контролируемые методы машинного обучения без классификации) очень часто используются инженерами по анализу данных, учеными по данным и другими специалистами по анализу данных, а также исследователями в области статистики, эконометрики, информатики и искусственного интеллекта в университетах, потому что они предпочтительнее традиционных альтернатив при проведении анализа в контексте ситуаций без гипотез, особенно на так называемых «больших» наборах данных (то есть с большим объемом, скоростью и/или разнообразием, где под объемом понимается количество столбцов, а не количество строк).

Новый алгоритм контролируемого обучения для целей выбора оптимального регрессора, оцениваемый в этом исследовании, Estimated Exhaustive Regression (далее EER), был предложен в рабочем документе известным эконометриком Энтони Дэвисом (2008). Его основные статистические свойства объясняются, а его практические характеристики исследуются путем сравнения с несколькими стандартными алгоритмами оптимального выбора регрессора с помощью точности того, насколько точно он может выбирать истинные модели населения, описывающие синтетические наборы данных, которые известны заранее путем их построения с помощью Монте-Карло. .

В отличие от большинства существующих методов выбора переменных, которые в основном носят специальный характер как в теории, так и на практике, EER основан на известных свойствах обычных оценок методом наименьших квадратов при выполнении анализа множественной линейной регрессии в присутствии пропущенных и посторонних моделей переменных и другие критерии выбора для процедуры регрессии всех подмножеств (далее ASR) (также известной как выбор наилучшего подмножества), которая пытается различать оценки параметров, которые являются статистически значимыми из-за лежащих в основе структурных отношений, и те, которые являются ложными.

2. Регрессия всех подмножеств

Для выполнения ASR наиболее подходящая спецификация регрессии выбирается из подмножеств всех возможных размеров из надмножества всех возможных комбинаций регрессоров в наборе регрессоров-кандидатов в данном наборе данных. То есть мы сопоставляем все 𝑘 возможных уравнений регрессии, которые содержат ровно один предиктор, затем мы делаем это для всех моделей, которые содержат ровно два предиктора, и так далее и так далее до 𝑘 - 1 (одно нужно вычесть, чтобы избежать идеальной мультиколлинеарности) . Затем мы смотрим на оценки, полученные в результате запуска всех этих моделей, с целью определения той, которая является лучшей с точки зрения значимости и измеримости.

Здесь стоит подчеркнуть предыдущий момент: одно из основных преимуществ ASR по сравнению почти со всеми другими методами автоматического выбора переменных заключается в том, что он пытается выбирать оптимальные модели, а не отдельные переменные по одной за раз. В конце концов, выбор переменных — это только средство для достижения цели, целью которой является определение оптимальной общей модели, потому что существует разница между тем, является ли отдельный регрессор статистически значимым, и статистически значимой моделью регрессии в целом. Классический алгоритм регрессии всех подмножеств описан ниже:

Теоретически, на первый взгляд, ASR кажется наиболее честным и простым из возможных автоматических алгоритмов выбора оптимальной регрессионной модели, поскольку он оценивает каждую возможную спецификацию регрессии, которая может быть построена для вашего набора данных, одну за другой, чтобы определить, какая из них лучше всего соответствует данным. .

Тем не менее, наибольшая сила ASR также предполагает серьезную потенциальную слабость использования его стандартной версии на практике, а именно, он, скорее всего, выберет ложную модель, а не истинную базовую модель населения, потому что он оценивает все возможные модели, и чем больше моделей оценивается. , тем больше шансов, что один из них окажется значимым только благодаря случайному стечению обстоятельств. Поэтому, если мы действительно хотим сделать его более надежным на практике, мы должны найти лучший способ идентифицировать включенные регрессоры, которые, вероятно, будут ложными.

3. Исчерпывающая регрессия

3.1 Мотивация и свойства оценщика

Предположим, что неизвестный аналитику процесс, определяющий переменную результата, характеризуется:

где 𝐮 — вектор Nx1 i.i.d. ошибки, которые следуют распределению Гаусса. Есть три возможных результата с точки зрения точности моделей, подогнанных к набору данных с помощью любой регрессии, использующей процедуру оценки МНК: модель с опущенными переменными, правильно указанная модель и модель с посторонними переменными. Модель с опущенными переменными - это уравнение регрессии, в котором отсутствует по крайней мере одна из объясняющих переменных, и модель с опущенными переменными также может включать одну или несколько дополнительных переменных-кандидатов. Правильно заданная регрессионная модель включает все переменные, которые действительно объясняют или предсказывают переменную результата, и не включает другие переменные-кандидаты. А модель посторонних переменных включает в себя все объясняющие переменные плюс по крайней мере одну ложную переменную. Формально их можно сформулировать так:

Во-первых, в правильно указанном случае значения, соответствующие выборочным наблюдениям при выполнении процедуры регрессии МНК, имеют следующий вид:

Как для правильно указанного случая, так и для завышенного (постороннего) ожидаемые значения оценок наклона равны параметрам их совокупности, т.е.

где квадратные скобки указывают, что это секционированная матрица.
Однако, в отличие от двух предыдущих случаев, для модели с опущенными переменными мы имеем:

и ожидаемые значения оценок наклона для OVM:

Из (5) мы видим, что ожидаемое значение оценок наклона в случае опущенной переменной смещено, и что направление смещения зависит от 𝐗𝟏′ 𝐗𝟐𝛃𝟐.

3.2 Статистика хи-квадрат кросс-модели

Предложенный Дэвисом метод идентификации и исключения переменных в выбранной модели, которые являются ложными с помощью традиционного алгоритма ASR, заключается в включении кросс-модельной статистики хи-квадрат в качестве критерия выбора, чтобы определить стабильность оценок каждого параметра в различных возможных моделях. (вместо стандартных методов R2, AIC или перекрестной проверки). Этот кросс-модельный критерий стабильности хи-квадрат сравнивает оценки параметров для каждого регрессора-кандидата во всех 2ᵏ — 1 возможных моделях, в которых появляется этот фактор. Факторы, оценки параметров которых дают заметно и количественно различающиеся результаты в разных общих спецификациях регрессии, идентифицируются как ложные.

В контексте модели множественной регрессии стандартной формы:

𝑦 = 𝛼 + 𝛽₁𝑥₁ + 𝛽₂𝑥₂ + 𝛽₃𝑥₃ + ⋯ + 𝛽ₖ𝑥ₖ + u (5)

где нулевая гипотеза утверждает ∀ 𝑖| 𝑖 ∈ (1: 𝑘), 𝛽ᵢⱼ = 0 и 𝛽̂ᵢⱼ независимы, то есть ∀ 𝑖 & 𝑗| 𝑖,𝑗 ∈ (1: 𝑘); с 𝑁 наблюдениями за каждым из 𝑘 регрессоров; Статистика хи-квадрата кросс-модели для регрессора 𝑥ᵢ определяется по формуле:

Тем не менее, вышеприведенная версия по-прежнему с высокой вероятностью приведет к слишком большому количеству ошибок типа II для случаев с высокими степенями свободы. Эту опасность можно уменьшить, просто разделив указанное выше на степени свободы, например

Этой модификацией классической процедуры ASR в качестве альтернативного критерия выбора регрессора является исчерпывающая регрессия (ER). С точки зрения предпочтительного порога, когда переменная-кандидат была выбрана для включения с помощью процедуры исчерпывающей регрессии, это в основном зависит от исследователя, однако ранее указанный ориентир согласно как Carmines and McIver (1981), так и Клайн (1998) заключается в том, что аналитик должен сделать вывод, что данные хорошо соответствуют гипотезе, заложенной в оценочном уравнении регрессии, только когда относительная кросс-модельная статистика хи-квадрат больше трех, т. е. 𝑐ᵢ › 3.

По словам Дэвиса, у ER есть важный потенциальный недостаток, который следует отметить: «поскольку оценки 𝛽̂ᵢⱼ получаются путем изучения всех комбинаций факторов из одного надмножества, можно ожидать, что 𝛽̂ᵢⱼ будет иметь положительную корреляцию». Кроме того, можно ожидать, что сила их корреляции будет увеличиваться вместе со степенью мультиколлинеарности, и это особенно верно, когда объясняющие переменные положительно коррелируют.

Важнейшей положительной характеристикой процедуры ER, о которой важно упомянуть, является ее способность точно различать факторы, которые действительно определяют результат, т. е. структурные факторы, и те, которые кажутся значимыми только случайно, т. е. ложные факторы. , увеличивается вместе с количеством факторов-кандидатов в наборе данных. Это чрезвычайно желательная черта в контексте проведения анализа «больших» наборов данных, которые с каждым годом становятся все более и более повсеместными.

4. Расчетная исчерпывающая регрессия

Фундаментальная проблема с использованием ASR на практике все еще присутствует и даже не уменьшилась в ER, эта проблема заключается в том, что вычислительно нецелесообразно запускать ASR для наборов данных с 35–45 или более столбцами и невозможно сделать это с 60 или более столбцами. наборы данных, потому что для запуска потребуется даже современный ПК с четырехъядерным процессором высокого класса и 32 ГБ оперативной памяти хорошего качества или больше недель или месяцев, а возможно, даже пара лет. Это связано с тем, что можно назвать комбинационным взрывом, потому что All Subsets Regressions оценивает все 2ᵏ − 1 потенциальных спецификаций регрессии из k факторов-кандидатов (количество столбцов в наборе данных минус один), что означает количество регрессий, которые должны быть оценивается в два раза для каждого увеличения k.

Процедура оценочной исчерпывающей регрессии обходит это, выбирая только случайную выборку J из 2ᵏ - 1 возможных комбинаций столбцов 𝑘 в наборе данных. С помощью моделирования методом Монте-Карло мы смогли понять, каким может быть подходящее минимальное количество случайных моделей J (без замены, конечно) для наборов данных с различным количеством предикторов-кандидатов k. Удивительно, но всего нескольких сотен или даже 100 случайно выбранных спецификаций регрессии может быть достаточно, чтобы превзойти некоторые методы тестирования, как мы увидим в следующем разделе.

Один очень важный аспект алгоритма EER, который уже отмечался, но подчеркивался, заключается в том, что он случайным образом выбирает J-модели (все возможные уравнения регрессии), а не переменные. Случайный выбор факторов приведет к смещению выбора модели в сторону моделей с общим числом факторов k/2, что является произвольным и, следовательно, неверным. С другой стороны, случайный выбор целых моделей дает каждой из 2ᵏ − 1 возможных моделей равную вероятность быть выбранной.

5. Сравнение производительности EER с общими тестами

В этом исследовании процедура EER оценивается главным образом путем сравнения с тремя популярными эталонными методами автоматического выбора регрессора, одним современным и двумя классическими. Первым эталонным алгоритмом выбора регрессора является алгоритм регрессии LASSO Тибширани (1996). LASSO означает оператор наименьшего абсолютного сокращения и выбора, он является членом семейства методов регуляризации метода регрессии, в которых используется штраф, используемый для настройки их прогнозов в рамках их целевых функций, известных как методы сжатия. 2-й контрольный метод — это Backward Elimination, форма семейства процедур выбора регрессора Stepwise Regression (SR), а 3-й контрольный тест — Forward Selection, еще одна распространенная процедура выбора регрессора из семейства методов Stepwise Regression.

5.1. Метод сравнительного анализа 1: оператор наименьшего абсолютного сжатия и выбора

Регрессия LASSO, по сути, является модификацией формулы суммы квадратов ошибок, минимизированной стандартной линейной регрессией, в которой для упорядочения ее прогнозов добавляется штрафной коэффициент. Эта модификация показана ниже:

𝜆 в уравнении (7) представляет собой штрафной коэффициент, используемый для корректировки его прогнозов путем уменьшения абсолютного значения всех оценок, полученных при запуске модели, включающей все регрессоры-кандидаты, на ту же величину, которая начинает исключать регрессоры-кандидаты после того, как она превышает определенный порог. В этом смысле критерий выбора, используемый регрессией LASSO, может быть как случайным, так и произвольным, что является двумя нежелательными свойствами со статистической точки зрения. Несмотря на это, благодаря своему положительному опыту в практических приложениях, где интерпретируемость выбранной модели не важна, LASSO сегодня является одним из самых популярных методов автоматического выбора оптимальных признаков предикторов среди специалистов по данным и исследователей машинного обучения.

5.2 Методы сравнительного анализа 2 и 3: пошаговая регрессия BE и FS

Два других эталонных алгоритма, результаты которых сравниваются с результатами EER, представляют собой две стандартные версии пошаговой регрессии, а именно пошаговое обратное исключение (где первая оцененная модель регрессии включает в себя все регрессоры-кандидаты, а регрессоры удаляются по одному постепенно) и Пошаговый прямой выбор (при этом оцениваемая исходная модель регрессии не включает регрессоров-кандидатов, и каждый регрессор затем добавляется к модели по одному постепенно). SR — одна из старейших автоматических процедур выбора регрессора в статистике. Это был основной метод для этой цели, помимо ASR, который использовался статистиками до ранних этапов современной революции машинного обучения в 1990-х годах.

Процедуры пошаговой регрессии пытаются выбрать оптимальные регрессоры среди «умной» выборки всех возможных моделей регрессии (по сравнению с ASR). Например, имея всего 30 регрессоров-кандидатов в заданном наборе данных, процедуры SR обычно оценивают только подмножество из менее чем 100 возможных моделей3, прежде чем сделать его выбор. Преимущество этого заключается в экономии времени вычислений, а недостатком является то, что он может надеяться выбрать только (локально) оптимальную регрессию, а не глобальный оптимум, такой как ASR. Какая версия SR с большей вероятностью выберет правильно заданное уравнение регрессии для данного набора данных, зависит от двух условий; первое условие — сколько регрессоров включено в моделируемое уравнение структурной регрессии, а второе — сколько регрессоров-кандидатов есть в наборе данных. Пошаговые алгоритмы выполнения BE и FS версий SR таковы:

Поскольку процедура обратного исключения всегда начинается с оценки полной регрессионной модели (той, которая включает в себя все регрессоры-кандидаты), она, как правило, работает лучше, когда и истинная модель населения, и набор данных имеют большой объем данных. Случай большого объема данных - это когда имеется большое количество предикторов-кандидатов 𝑝 по сравнению с количеством наблюдений для каждого из них 𝑛 (где большой обычно означает больше 45 или 50). Используя те же рассуждения в обратном порядке, поскольку процедура прямого выбора всегда начинается с оценки нулевой модели, т. Е. Пригодности только отрезка, она обычно лучше всего работает для наборов данных ограниченного объема и для моделирования или прогнозирования низкоразмерных процессов / явлений ( высокий 𝐾 относительно 𝑁).

5.3 Результаты сравнения EER с контрольными показателями методом Монте-Карло

Наш первый эталонный алгоритм выбора переменных, LASSO, выбрал только 4937 правильно определенных регрессионных моделей из возможных 58 500, или примерно в 8,4% случаев.

Ступенчатая регрессия с обратной элиминацией, наш 2-й контрольный метод, выбрала только 1143 правильно указанные модели для истинной положительной доли 1,96%, 41830 (71,5%) выбранных моделей мы указали с завышенными параметрами, а также модели, которые не включали хотя бы одну структурную переменную 15527 раз для ложноотрицательного уровня 26,5%.

Пошаговая регрессия прямого выбора, наш 3-й контрольный метод, выбрала только 1413 правильно указанных моделей, что составляет всего 2,4% времени (его истинно положительный показатель). Что касается выбора регрессии со всеми включенными правильными регрессорами, но также и по крайней мере с одним ложным регрессором, т. Е. Выборами модели с завышенной спецификацией, было выбрано 45 004 (76,9%) таких спецификаций регрессии. И, наконец, FS Stepwise не удалось выбрать все истинные структурные переменные (исключая хотя бы одну) для 12 083 из 58 500 наборов данных, что составляет 21,6% из них (его доля ложноотрицательных результатов).

Процедура EER с порогом значимости 𝛼, выбранным для всех регрессоров-кандидатов 𝑥ᵢ, установленным на 𝑐ᵢ › 3, была запущена с количеством случайно выбранных моделей, по оценкам J, установленным на 6 различных размеров, чтобы оценить, какой уровень может быть подходящим для начала. с при использовании его в качестве аналитики. Результаты представлены в таблице ниже:

Удивительно, но, по крайней мере, в случае моделирования наборов данных с 30 регрессорами-кандидатами и 500 наблюдениями для каждого из них его производительность была превосходной для каждой из 6 различных оцененных случайно выбранных моделей J. Даже когда для каждого набора данных оценивалось всего 50 случайных регрессий, результаты были фантастическими. Однако, поскольку разница во времени вычислений между запуском EER с J, установленным на 50, и с этим, установленным на 250 или 500, несущественна, на данный момент всем, кто хочет использовать EER на практике, рекомендуется начать с установки J равно 250 или 500.

Чтобы выяснить, могут ли некоторые правильно определенные регрессии быть идентифицированы с помощью EER, увеличив наше требование значимости для выбора регрессора с 3 до чего-то более высокого, были опробованы 5, 7 и 10, каждый из которых для тех же шести параметров J. Мы получили почти идентичные результаты, поэтому ниже приводятся только точные результаты только для одного из этих альтернативных порогов значимости для выбора:

Один конкретный аспект выборки, сделанной EER, который является более качественным, чем результаты, представленные в двух предыдущих таблицах, но я был бы небрежен, если бы не включил его в эту статью, заключается в том, что для подавляющего большинства регрессионных моделей, выбранных EER, в выходные данные включается только один дополнительный регрессор, и этот единственный включенный посторонний регрессор почти всегда является следующим регрессором-кандидатом после последнего структурного регрессора. Это резко контрастирует с большим количеством посторонних моделей переменных, выбранных как с помощью обратного исключения, так и с помощью прямого выбора. Дополнительные регрессоры, включенные в их регрессионные выборки, не демонстрировали никакой закономерности и часто включали более одного дополнительного фактора-кандидата.

6. Заключение

Хотя оценочная исчерпывающая регрессия не обязательно идеальна, если цель состоит в том, чтобы максимизировать процент выбора только правильно указанной модели, оценочная исчерпывающая регрессия имеет значительно более низкий уровень ложноотрицательных результатов, чем LASSO, пошаговая регрессия с обратным исключением или пошаговая регрессия с прямым выбором. И снова, пока выполняются стандартные предположения, лежащие в основе оценок методом наименьших квадратов для анализа множественной линейной регрессии, ожидаемое значение оценок наклона, возвращаемых для моделей внешних переменных, равно их истинным значениям параметров.

Таким образом, хотя идеальной целью является максимальный выбор правильно заданных моделей, можно сказать, что выбор спецификации регрессии с посторонней переменной, строго говоря, не является неправильным. В результате более надежной первичной целью для вывода любого алгоритма выбора признаков, который удовлетворяет стандартным предположениям МНК, должна быть просто минимизация неправильно исключенных регрессоров (ложноотрицательных результатов), то есть минимизация вероятности выбора моделей с пропущенными переменными, а не цели. одновременно свести к минимуму вероятность выбора моделей как с пропущенными, так и с посторонними переменными, потому что первые гораздо более проблематичны, чем вторые. Кроме того, время выполнения, необходимое для оценочной исчерпывающей регрессии с увеличением аргументов J до 500, по-прежнему меньше, чем у любой версии Stepwise, но не намного больше, чем у LASSO.

Для любого алгоритма обучения с учителем с приемлемыми требованиями к времени вычислений, чтобы привести к чему-либо близкому к 0% ложноотрицательной вероятности на 58 500 случайно сгенерированных синтетических наборах данных со 117 различными базовыми вероятностными или статистическими условиями и 500 случайными вариациями для каждого из этих условий, невероятно хорошая производительность даже если он не может правильно идентифицировать какие-либо модели, которые указаны идеально.

7. Недостатки, ограничения и дальнейшая работа

Необходимо провести дальнейшие исследования, чтобы определить, насколько хорошо EER работает при выборе факторов в моделях нелинейной множественной регрессии и как эта производительность сравнивается с методами сравнительного анализа, включенными в это исследование, а также с другими, более подходящими для моделирования нелинейной регрессии ( такие как базовые нейронные сети, машины опорных векторов и глубокое обучение). То же самое необходимо будет исследовать и для случая оптимального выбора факторов в моделях классификации.

Один недостаток, общий как для процедур ER, так и для процедур EER, заключается в том, что, хотя они с большей вероятностью выберут оптимальную общую спецификацию модели, чем эталоны, для них все же возможно выбрать набор регрессоров в большей степени на основе каждой их индивидуальной оптимальности, чем их коллективная оптимальность. Из-за этого они по-прежнему могут выбирать модели, все включенные регрессоры по отдельности проходят кросс-модельный тест хи-квадрат, но не являются статистически значимыми в качестве общей регрессии при совместном запуске. Одно из возможных объяснений заключается в том, что в рамках одной регрессионной модели дисперсия ошибки достаточно велика, чтобы заглушить объяснительную силу фактора, но, поскольку кросс-модельная статистика хи-квадрат основана на кросс-модельной информации, которая оценивается и отфильтровывается погрешность, фактор оказывается значимым7. Однако это менее вероятно для ER и EER, чем для текущих контрольных показателей.

Наконец, потребуются дальнейшие исследования и анализ, чтобы выяснить, что стоит за необычайно последовательным и даже, казалось бы, предсказуемым способом, которым оценочная исчерпывающая регрессия выбирает один ложный фактор в возвращаемых спецификациях регрессии. Возможно, это можно как-то устранить, и в этом случае EER действительно может стать мощным двигателем в этой области, или, возможно, это какая-то функция, а не ошибка, которая помогает объяснить, как EER, по-видимому, может избежать каких-либо ошибок типа II. .

Конец.

Ссылки

Лимер, Э.Э., 1983. Поиск спецификаций. Уайли.

Лимер, Э.Э., 1983. Давайте избавимся от эконометрики. Американское экономическое обозрение, 73: 31–43.

Дэвис, А., 2006 г. Схема разложения шоков и измерения волатильности, полученная на основе многомерных панельных данных прогнозов обследований. Международный журнал прогнозирования, 22(2): 373–393.

Дэвис, А., 2008. Исчерпывающая регрессия: исследование методов интеллектуального анализа данных на основе регрессии с использованием супервычислений. Исследовательская программа по прогнозированию, Университет Джорджа Вашингтона, Рабочий документ РФП №2008–008. http://www.gwu.edu/~forcpgm/2008-008.pdf

Карминес, Э. Г., и Дж. П. Макивер, 1981. Анализ моделей с ненаблюдаемыми переменными: анализ ковариационных структур, в Bohmstedt. В Г.В. и Э. Ф. Боргатта, ред. Социальные измерения. Публикации Sage: Thousand Oaks, CA. стр. 65–115.

Тибширани, Р., 1996. Регрессионное сокращение и отбор с помощью лассо. Журнал Королевского статистического общества, серия B (методологическая), 58: 267–288.

Клайн, Р.Б., 1998. Принципы и практика моделирования структурными уравнениями. Гилфорд Пресс: Нью-Йорк.