Причинное машинное обучение для науки о данных: глубокое обучение с инструментальными переменными

Сочетание науки о данных и эконометрики для введения в структуру DeepIV, включая полное руководство по коду Python.

Исторически сложилось так, что и экономисты, и философы были озабочены извлечением понимания причины и следствия из эмпирических данных. Дэвид Хьюм, экономист и философ, известен тем, что исследует причинность как эпистемологическую загадку, так и практическую проблему в прикладной экономике. В статье, озаглавленной Причинность в экономике и эконометрике, профессор экономики Кевин Д. Гувер утверждает, что экономисты унаследовали от Юма представление о том, что практическая экономика по сути является причинной наукой. (Гувер, 2006). Как эмпирик с большой буквы Е, Юм оказал большое влияние на развитие причинности в экономической науке; его скептицизм создавал противоречие между эпистемологическим статусом причинных отношений и их ролью в практической политике. (Гувер, 2006). В 1739 году, когда Юм дал известное определение причинности в Трактате о человеческой природе ”, я сомневаюсь, что он был в состоянии предвидеть радикальные изменения, вызванные экспоненциальным прогрессом технологической эволюции. Он также не мог представить себе нашу сегодняшнюю реальность, где глубокое обучение используется для определения причины и следствия.

Сегодня причинная наука управляется машинным обучением; тем не менее, это все еще только зарождающаяся область, и ее развитие было сосредоточено в первую очередь на теории. В моей последней статье о каузальном машинном обучении я выразил оптимизм в отношении того, что достижения теоретической эконометрики могут быть применены к социальным исследованиям. До этого в более ранней статье о причинно-следственных связях я представил тематическое исследование того, как эконометрика может использоваться в науке о данных, опираясь на статью Алексея Абрахамса под названием Тяжелые путешествия (Abrahams, 2021). В этой статье я возвращаюсь к исследованию Абрахамса причинно-следственного воздействия израильских контрольно-пропускных пунктов на результаты труда палестинцев, но я использую глубокое обучение для работы с инструментальными переменными. К счастью, исследование Абрахамса предоставило возможность применить недавние достижения эконометрики машинного обучения к социально ориентированным исследованиям.

Из соображений практичности я построил эту статью на основе полного учебника по коду Python, который реализует фреймворк DeepIV (Hartford et al., 2017), поддерживаемый библиотекой EconML Microsoft Research. Для начала я вкратце вернусь к теме Тяжелое путешествие с акцентом на выделение основных моментов исследования в области науки о данных, позволяя обсудить ограничения исходного подхода. После этого я предлагаю альтернативный подход, который расширяет набор данных Абрахамса для проверки неоднородных эффектов лечения. Я поддерживаю этот альтернативный выбор, обсуждая противоречивость, инструментальные переменные и объясняя важность определения условного среднего лечебного эффекта (CATE). Далее следует краткое введение в глубокое обучение, в котором я помещаю это подмножество машинного обучения в эконометрику, чтобы объяснить необходимость сравнительного анализа результатов глубокого обучения. Затем я предоставляю полное пошаговое руководство по фреймворку DeepIV, которое ведет непосредственно к реализации Python этой техники в наборе данных Abrahams. В заключение я проверяю результаты глубокого обучения с помощью оценок CATE с помощью метода неглубокого каузального машинного обучения, а именно. сравнительный анализ оценок DeepIV с инструментальным причинным лесом.

Тяжелое путешествие

Я предоставляю подробный обзор Тяжелого путешествия в более ранней статье. Основная цель этой оценки воздействия заключалась в изучении причинного воздействия на уровень безработицы среди палестинцев контрольно-пропускных пунктов израильской армии и дорожных препятствий, установленных вдоль внутренней дорожной сети Западного берега.

Препятствия, показанные на изображении выше, были созданы по соображениям безопасности, но помешали палестинским пригородным поездкам. Из-за того, что пассажиры не могли добраться до коммерческих центров и пунктов пересечения границы, были начислены потери рабочих мест; однако потери были в значительной степени компенсированы увеличением занятости среди более центральных палестинских конкурентов, занимающихся пригородными поездками. Иными словами, незначительные экономические меры, такие как улучшение дорожной инфраструктуры, привели к изменению пространственного распределения безработицы, но не снизили общий уровень безработицы.

В «Тяжелом путешествии» Абрахамс использует инструментальную стратегию 2SLS (двухступенчатый метод наименьших квадратов) по первому различию, где инструментом является продольная близость израильских поселений к палестинским пригородным маршрутам. Этот метод эффективен, потому что инструменты изолируют подмножество препятствий, возникающих в непосредственной близости от населенных пунктов, а не напрямую регрессируют процентное изменение занятости от общего наличия контрольно-пропускных пунктов. Результаты этого исследования показаны на изображении ниже, где потери безработицы в периферийных районах контрастируют с ростом занятости в центральных районах.

Ошибочность и инструментальные переменные

В моей любимой книге по эконометрике В основном безвредная эконометрика авторы заявляют, что наиболее важное современное использование методов IV - это решение проблемы отсутствующих или неизвестных управляющих переменных (Angrist & Pischke, 2009). При использовании данных наблюдений существует риск того, что скрытые ненаблюдаемые переменные будут иметь смешивающий эффект, делая невозможным выявление взаимосвязей между переменными, чтобы можно было определить причину и следствие. Это требует от нас сделать явные предположения о причинной структуре процесса генерации данных (DGP). Обычно это сводится к предположению, что лечение условно не зависит от каких-либо скрытых переменных с учетом наблюдаемых ковариат. Но даже в этом случае такое предположение не всегда возможно; следовательно, необходимы инструментальные переменные, которые влияют только на назначение лечения, а не на переменную результата. По сути, инструментальные переменные необходимы, когда мы не можем действовать в предположении необоснованности, и этот решающий момент является центральным при разработке оценки Абрахамса.

Абрахамс проводил исследование «Тяжелое путешествие» в период с 2012 по 2014 год, и в то время инструментальная регрессия 2SLS была лучшим вариантом для определения причинных эффектов. Однако ограничение состоит в том, что при этом строится линейная модель, предполагающая однородные эффекты обработки. Поэтому причинно-следственный эффект, рассчитанный в исследовании Абрахамса, можно назвать средним локальным эффектом лечения (ПОЗДНЕЕ), который имеет меньшую статистическую мощность из-за предположения об однородности. Важно отметить, что предположение о постоянном причинно-следственном эффекте исключает возможность того, что средний лечебный эффект зависит от ковариат. Кроме того, линейная модель может быть не лучшим представлением структурной формы DGP, отсюда необходимость в непараметрических методах IV. Чтобы справиться с двумя ограничивающими предположениями о линейности и однородности, следует использовать непараметрический метод для оценки условных средних эффектов обработки (CATE).

Зачем нужна оценка CATE?

В моей последней статье о причинно-следственных связях я представил пошаговое руководство по условному среднему эффекту лечения (CATE) и предположил, что важность CATE связана с назначением справедливой политики. Это абсолютно верно, однако есть и другие причины смотреть на неоднородность лечебного эффекта. Кроме того, данные тематического исследования в моей последней статье были взяты из рандомизированного контрольного исследования (РКИ), которое, как и A / B-тестирование, позволяет делать причинно-следственные выводы без вмешательства со стороны сомневающихся факторов. Однако в Жестком путешествии Абрахамс использует данные наблюдений, и, как видно на изображении ниже, оценка CATE осложняется потенциально смешивающими эффектами ковариат.

Помимо справедливости, для исследований, использующих данные наблюдений, CATE также важен для оценки обоснованности дизайна исследования. Согласно Angrist & Pischke (2009), неоднородность лечебного эффекта важна из-за различия между двумя типами валидности, которые характеризуют дизайн исследования. Они объясняют, что внутренняя валидность заключается в том, раскрывает ли дизайн причинно-следственные связи, а хорошее исследование IV, такое как «Тяжелое путешествие», имеет сильные претензии на внутреннюю валидность. С другой стороны, внешняя валидность - это прогностическая ценность результатов исследования в другом контексте, в терминах машинного обучения это относится к способности модели к обобщению. Angrist и Pischke заявляют: «Эконометрическая структура с неоднородными эффектами лечения помогает нам оценить как внутреннюю, так и внешнюю валидность оценок IV». (Angrist & Pischke, 2009).

Что касается внешней обоснованности, то в рамках «Трудного путешествия» Абрахамс предполагает, что в отсутствие политической реформы экономическое вмешательство не сможет эффективно улучшить результаты труда. С точки зрения контекста, это смелое и нетрадиционное заявление для экономиста, но оно подтверждается обширной литературой по политической экономии. Таким образом, оценка CATE поможет оценить внешнюю обоснованность оценки воздействия компании Abrahams. Другими словами, понимание неоднородности эффектов лечения поможет определить, можно ли расширить результаты исследования, чтобы поддержать более широкое утверждение о необходимости политической реформы. Хотя оценки CATE позволили бы нам определить конкретные палестинские районы, которые страдают наибольшим отрицательным причинным эффектом, возможно, справедливое определение политики менее важно, чем оценка внешней достоверности оценки.

Помимо внешней достоверности, CATE полезен для определения подгрупп, для которых средний эффект лечения будет отличаться. Учитывая результаты Абрахамса, я подозревал, что будет разница в CATE между меньшими периферийными районами и более крупными центральными районами. Чтобы проверить эту гипотезу, я использовал настольное программное обеспечение ГИС с открытым исходным кодом QGIS и данные геоджсона, которыми поделился Абрахамс, чтобы разделить палестинские районы по размеру населения.

Как видно на карте выше, меньшие периферийные районы (красным) расположены в конечных узлах структуры дорожной сети, в то время как более крупные районы (синим цветом) расположены более централизованно в дорожной инфраструктуре. Палестинские кварталы разделены по медиане общей численности населения для всех кварталов, что составляет 1885 человек. Это четко разделяет набор данных Абрахамса пополам, а равные размеры выборки позволили сравнить оценки DeepIV CATE для подгруппы.

Глубокое обучение в эконометрике

Установив необходимость оценки CATE, следующим шагом будет выбор непараметрического метода IV для моделирования процесса генерации данных (DGP). Глубокое обучение оказалось мощным методом изучения скрытых представлений сложных пространств функций, что делает его идеальным для непараметрического моделирования. Тем не менее, использование глубокого обучения в экономике является спорным вопросом, в первую очередь из-за того, что глубокие нейронные сети являются черным ящиком. Возможно, эконометрика требует более высокой степени строгости, поэтому сравнительное отсутствие математической формальности в абстрактном понимании глубинных нейронных сетей является признаком этого типа машинного обучения. Более того, экономисты Сьюзан Этей и Гвидо В. Имбенс отмечают, что нет формальных доказательств предполагаемого превосходства глубокого обучения и нейронных сетей над деревьями регрессии и случайными лесами для задач контролируемого обучения (Athey & Imbens, 2019).

Глубокое в глубоком обучении просто относится к нескольким уровням нейронной сети, тогда как мелкая сеть будет иметь один слой. Глубокое обсуждение этого подмножества ML выходит за рамки данной статьи; тем не менее, есть несколько отличных ресурсов, посвященных этой теме. В качестве введения я настоятельно рекомендую Deep Learning with Python, написанный Франсуа Шоле, создателем популярного API глубокого обучения Keras. Я также предлагаю этот полезный блог Джейсона Браунли в его блоге Мастерство машинного обучения. Кроме того, на Medium есть множество статей, которые знакомят с различными приложениями этой широкой темы, включая обработку естественного языка, компьютерное зрение и другие. В следующем руководстве по коду я использую удобные для новичков Keras и при необходимости даю простые объяснения.

Что касается здорового скептицизма глубокого обучения в экономике, я считаю, что, хотя отсутствие интерпретируемости является проблемой, не следует сбрасывать со счетов использование этой техники. Внимательный специалист по данным знает, что для конкретных задач важно сравнивать модели глубокого обучения с неглубокими интерпретируемыми моделями; существует вполне реальная возможность, что более интерпретируемая модель будет работать лучше. К счастью, причинные леса можно использовать в качестве сопоставимого непараметрического метода IV для сравнения результатов оценки IV с помощью глубокого обучения. Поэтому, следуя предлагаемой реализации глубокого обучения, я рассмотрю код, необходимый для сравнения результатов с более интерпретируемым причинным лесом. В следующем разделе представлена структура DeepIV, которая позволяет использовать глубокое обучение с инструментальными переменными для оценки CATE.

Фреймворк DeepIV

В статье DeepIV: гибкий подход к контрфактическому прогнозированию Хартфорд и др. (2017) дополняют методы глубокого обучения, чтобы охарактеризовать причинно-следственную связь между лечением и переменными результата. В структуре используются инструментальные переменные, которые работают как источники рандомизации лечения, условно не зависящие от результатов. Понимание этой причинно-следственной связи необходимо для контрфактического прогнозирования, и структура DeepIV выполняет это с помощью двух задач прогнозирования, которые могут быть решены с помощью глубоких нейронных сетей. Подобно двум этапам 2SLS, первый этап представляет собой сеть для прогнозирования лечения, а сеть второго этапа прогнозирует результаты.

Как я объяснял в своей предыдущей статье о причинно-следственных связях по машинному обучению, контрфактические прогнозы не могут быть сделаны прямым способом; однако, поскольку инструментальные переменные так же хороши, как и рандомизация, они позволяют отобрать ненаблюдаемые. Hartford et al. называйте эту настройку структурой DGP в соответствии со спецификацией IV, и эту причинно-следственную связь можно описать с помощью причинного графа ниже.

На приведенной выше диаграмме x представляет ковариаты или наблюдаемые функции, p представляет переменные обработки (политики), z представляет инструменты, y - результат, а e - скрытый эффект ненаблюдаемых объектов. В этой настройке термин ошибки e влияет на y аддитивным образом.

В структуре DeepIV IV-анализ происходит на двух контролируемых этапах, в частности, на первом этапе моделируется условное распределение лечебной переменной p с учетом инструментов z и ковариат x. Соответственно, на втором этапе используется целевая функция потерь, которая включает интеграцию по распределению условной обработки первого этапа, решение, которое просто требует адаптации готовых алгоритмов. На обоих этапах глубокая нейронная сеть обучается с помощью стохастического градиентного спуска (SGD), и Hartford et al. представить процедуру проверки причинно-следственной связи вне выборки для выбора гиперпараметров моделей из набора для проверки.

Решение проблемы контрфактического предсказания требует понимания взаимосвязи между переменными, описанными выше: y, p, x, z и e. Как видно из приведенного ниже уравнения, структурная форма y определяется p, x и e.

Неизвестная функция g является потенциально нелинейной непрерывной функцией как x и p, так и скрытого эффекта e (т.е. ошибка) влияет на y аддитивно с безусловным средним 𝔼 e. Это дает нам структурное уравнение h в качестве функции гипотетического предсказания. Как показано ниже, скрытый эффект e добавляется как 𝔼 [e ⎟ x], так что он обусловлен только x и остается неизменным при изменении режима p.

Следуя процедуре 2SLS, чтобы решить указанное выше уравнение, h (p, x), нам необходимо оценить объективную h_hat ( p, x), что возможно при наличии инструментов z. Объективная оценка возможна, потому что z удовлетворяет трем условиям: релевантность, исключение и необоснованность. Релевантность означает, что условное распределение F функция плотности обработки изменяется в зависимости от z. Исключение означает, что результат y зависит только от обработки p и ковариат x. Взяв условное ожидание обеих сторон функции g, обусловленное [x ⎟ z], мы получаем следующее уравнение:

В приведенном выше уравнении dF (p ⎟ x, z) - это распределение условной обработки, которое необходимо оценить на первом этапе. Обычно для оценки h_hat функция плотности обработки F, должна быть заменена на F_hat. По сравнению с 2SLS, разница между DeepIV Основа заключается в том, чтобы избежать аналитического решения интеграла в приведенном выше уравнении. Вместо этого на первом этапе оценивается функция плотности обработки F_hat (p ⎟ x, z), моделируемая как смесь нормальных распределений (гауссиан) , где параметры модели плотности смеси являются выходом сети первого каскада. Как отмечает Хартфорд и др. Объясните, что при достаточном количестве компонентов смеси сеть может аппроксимировать произвольную гладкую плотность (Hartford et al., 2017). С помощью 2SLS линейные модели строятся для F_hat и функции контрфактического прогнозирования h. Однако, как упоминалось ранее, этот подход требует двух сильных предположений о линейности и однородности.

Учитывая выходной сигнал первого этапа, второй этап оптимизирует функцию потерь, показанную ниже.

Функция потерь минимизирует потерю 𝓵2 для оптимизации оценки h_hat. На обоих этапах гиперпараметры выбираются так, чтобы минимизировать соответствующие функции потерь с использованием удерживаемого набора для проверки. Это означает, что повышение производительности будет коррелировать с улучшением истинных структурных потерь, которые нельзя оценить напрямую. В структуре DeepIV необходима причинная проверка, поскольку перекрестная проверка, которая является обычным методом выбора гиперпараметров, не может работать, если нет выборок контрфактического результата. По сути, использование данных удерживаемой валидации позволяет проводить причинную валидацию вне выборки. Hartford et al. обратите внимание, что этот метод обеспечивает «относительную» производительность, поскольку он повышает производительность при решении проблем с гипотетическим прогнозированием, не сообщая нам, насколько оценка h отличается от истинного значения h (p, x). В следующем разделе описывается код, необходимый для реализации двух этапов платформы DeepIV.

Реализация платформы DeepIV на Python

Поскольку это будет быстрее, я предлагаю использовать Google Colab, чтобы использовать бесплатный экземпляр GPU для обучения глубоких нейронных сетей. Кроме того, Colab упрощает установку полной версии EconML с соответствующими зависимостями пакетов без проблем с серверной частью Tensorflow. Данные Жестких путешествий доступны здесь в виде файла Stata .dta (Abrahams, 2021). Первый шаг - запустить следующую строку кода в Colab, чтобы установить полную версию EconML.

!pip install econml[all]

Следующие две строки позволяют нам загрузить набор данных Абрахамса в записную книжку Colab.

from google.colab import files
files.upload()

Следующим шагом является импорт необходимых пакетов, загрузка данных и небольшая предварительная обработка. В приведенном ниже фрагменте кода мы переименовываем необходимые столбцы, нормализуем переменные и заменяем значения NAN на «0».

В «Тяжелом путешествии» Абрахамс использует 71 ковариату в основной регрессии. Следуя этому примеру, мы загружаем 71 элемент управления как фиктивные переменные.

Поскольку мы проверяем гипотезу о том, что подгруппы испытывают разные CATE, в приведенном ниже фрагменте кода мы делим набор данных пополам, используя медианное значение итоговых значений совокупности (медиана = 1885). После этого для двух подгрупп определяются отдельные наборы переменных (результат, лечение, ковариаты, инструменты), которые преобразуются в массивы numpy для соответствия нейронным сетям.

Затем мы строим глубокие нейронные модели, которые будут использоваться в качестве сети лечения первого этапа и сети результатов второго этапа. Оба, вместе, будут использоваться для построения двух отдельных моделей оценки для двух подгрупп. Как видно из фрагмента кода ниже, Keras используется для построения нейронных сетей путем последовательной упаковки составных нейронных слоев. Для первого плотного слоя, как в модели лечения, так и в модели результатов, входная форма равна 73. Что для сети лечения соответствует 71 ковариате плюс 2 переменных лечения, а для сети результатов это равняется 71 ковариате плюс 2 инструментальные переменные.

И в сети лечения, и в сети результатов есть три плотных слоя, чередующихся с тремя слоями выпадения. Однако итоговая сеть отличается наличием четвертого плотного слоя, всего 7 слоев. Каждый плотный слой использует выпрямленную линейную функцию активации или ReLU и уменьшается в размере на 50% (128, 64, 32) по мере увеличения глубины сети. Последний седьмой уровень итоговой сети имеет выходной размер 1. Каждый выпадающий слой отбрасывает блоки со скоростью 17%, что является способом добавления регуляризации к сети во избежание переобучения.

Затем необходимо установить параметры для двух моделей оценки, одну для меньших периферийных районов «deepIvEst_per», а другую для более крупных центральных районов «deepIvEst_not_per ». Как видно из фрагмента кода ниже, сначала мы определяем два набора параметров Keras для подгонки моделей: один с 50 эпохами, а другой со 100 эпохами. Основываясь на моей тонкой настройке, я экстраполировал, что для модели «deepIvEst_per» сеть обработки первого этапа требует более 50 эпох, чтобы минимизировать потери. И наоборот, для исходной сети первого этапа и двух сетей модели «deepIvEst_not_per» требуется менее 50 эпох.

Разделение проверки в обоих наборах параметров установлено на 10%, это представляет собой данные удержания. Для обратных вызовов мы используем «EarlyStopping» Кераса с «терпением», установленным на 2, так что, как только модель начнет переобучаться, обучение закончится и будут восстановлены лучшие веса. Для ранней остановки «терпение» относится к количеству эпох без улучшения, после которых тренировка будет остановлена. Это означает, что указанное количество эпох действует как максимальный порог, а не как обязательная цель. Например, лечебная сеть для модели «deepIvEst_not_per» установлена на 50 эпох, но для этой сети обучение обычно заканчивается через 23 эпохи.

Как видно из фрагмента кода выше, параметры двух моделей оценки для двух подгрупп почти идентичны, единственное различие заключается в схеме обработки для модели «deepIvEst_per», которая установлена на максимум 100 эпох. Для обеих моделей «n_components» установлено на «15», это означает, что функции плотности смеси для обеих состоят из 15 гауссовых распределений. Параметры «m» и «h» - это сети лечения и исходов, которые были подробно описаны ранее; лямбда-функция отображает переменные (z, x) для модели лечения или (t, x) для модели результатов в модели Кераса. В результате каждый «m» и «h» представляет собой отдельный тензор, который является конкатенацией всех соответствующих входных данных. «N_samples» представляет количество выборок, которые следует использовать для оценки результата.

Для параметра use_upper_bound_loss установлено значение True. Если установлено значение False, градиент оценивается по двум независимым выборкам, и для этого требуется прямой проход через сеть, следовательно, он требует больших вычислительных затрат (Hartford et al., 2017). И наоборот, установка для этого параметра значения Истина означает, что для расчета градиента можно использовать одно рисование, поскольку это оптимизирует верхнюю границу функции потерь. Недостатком является то, что верхняя граница потерь является только приближением истинных потерь. Однако Хартфорд и др. Утверждают, что верхняя граница потерь имеет лучшую производительность при практических вычислительных ограничениях. Для параметра n_gradient_samples установлено значение 0, поскольку мы оптимизируем потери на верхней границе.

Я пробовал множество оптимизаторов и выбрал оптимизатор Adagrad, так как у него скорость обучения зависит от параметров. Это означает, что скорость обучения адаптируется к тому, как часто параметр обновляется во время обучения. По сути, чем больше обновлений получает параметр, тем меньше размер обновлений градиента. First_stage_options и second_stage_options - это то место, где мы передаем параметры Keras, которые были установлены ранее; они контролируют то, как подходит модель. Для обучения двух моделей оценки требуется запустить следующие две строки по отдельности. Каждая модель подгруппы соответствует описанным ранее переменным (y, t, x, z) и (y2, t2, x2, z2) для модели deepIvEst_per и «deepIvEst_not_per ” соответственно.

deepIvEst_per.fit(Y=y,T=t,X=x,Z=z) deepIvEst_not_per.fit(Y=y2,T=t2,X=x2,Z=z2)

После обучения моделей можно прогнозировать эффекты лечения для каждого района. Каждой подгруппе даются оценки CATE из соответствующей модели. Результаты сохраняются в кадре данных, и скользящее среднее вычисляется для каждого набора лечебных эффектов.

Наконец, как видно из фрагмента кода ниже, для сравнения мы построим CATE для двух подгрупп.

Я провел обучение 20 раз, собрал результаты и выбрал случайную выборку для построения графика, в результате чего получился следующий график:

Среднее значение CATE для небольших периферийных районов варьировалось от 0,4 до 0,8, тогда как медианное значение для более крупных центральных районов варьировалось от 2,0 до 3,0. Кроме того, для самого низкого квантиля периферийных районов средний показатель CATE варьировался от -0,3 до 0,3. Однако ясно, что значения CATE разделены на две подгруппы, что четко показано на графике выше.

Контрольный показатель причинного леса

Чтобы сравнить результаты от платформы DeepIV, для каждой подгруппы мы строим инструментальный причинный лес (Athey et al., 2019). В приведенном ниже фрагменте кода мы разделили набор данных Abrahams на поезд и набор тестов для каждой подгруппы. Затем мы устанавливаем переменную результата, переменные лечения, ковариаты и инструменты для подбора двух причинных лесов, по одному для каждой подгруппы.

Затем мы устанавливаем параметры для двух причинных лесов и подбираем модели. Для получения более подробной информации о том, как выбрать параметры для причинного леса, я предлагаю свою предыдущую статью о причинном машинном обучении, в которой эти детали рассматриваются.

Мы используем причинно-следственные модели леса для прогнозирования эффектов лечения и верхних и нижних границ доверительных интервалов для каждой подгруппы. После этого результаты для каждой подгруппы сохраняются в кадре данных и вычисляется скользящее среднее.

Наконец, мы наносим на график различные эффекты лечения и доверительные интервалы для каждого причинного леса.

Построение только CATE для обеих подгрупп приводит к следующему графику:

Построение CATE с доверительными интервалами для подгруппы периферийных окрестностей приводит к следующему графику:

Построение CATE с доверительными интервалами для подгруппы центральных окрестностей приводит к следующему графику:

Точно так же, как в эксперименте DeepIV, я запускал причинные леса 20 раз и собирал результаты. Медиана CATE для небольших периферийных районов варьировалась от 0,2 до 0,3, тогда как медиана для более крупных центральных районов варьировалась от 2,9 до 3,1. Интересно, что средний CATE варьировался от -2,8 до -3,5 для самого низкого квантиля периферийных районов, средний диапазон CATE, который намного ниже, чем оценки DeepIV (от -0,3 до 0,3). Кроме того, медианные диапазоны CATE причинных лесов были меньше по размеру, чем диапазоны для оценок DeepIV, что предполагает большую дисперсию в последних оценках.

Заключительные мысли

При сравнении оценок из структуры DeepIV и причинных лесов мне напомнили результаты Абрахамса в «Тяжелом путешествии». Чистый ослабленный эффект был близок к нулю, поскольку, по существу, эффекты препятствия и защиты компенсировали друг друга. С другой стороны, оценки CATE, полученные как из структуры DeepIV, так и из причинных лесов, отличаются от среднего локального эффекта обработки Абрахамса (LATE). Важно отметить, что как в моделях DeepIV, так и в эталонных каузальных лесах существует явная разница между значениями CATE подгрупп, предполагая, что гипотетические подгруппы были допустимым разделением. Поскольку результаты двух методов подтверждают друг друга, у меня есть основания утверждать, что я не смог отклонить нулевую гипотезу.

Сравнение результатов глубокого обучения с более интерпретируемым причинным лесом позволяет сравнить два непараметрических метода IV. Сила причинных лесов заключается в способности вычислять допустимые доверительные интервалы. Для сравнения, сильная сторона глубокого обучения - это способность создавать скрытые представления сложных пространств функций. Сила глубокого обучения в том, что оно помогает нам преодолеть проклятие размерности. Учитывая, что основная установка Абрахамса включала 71 ковариат, я считаю, что для этого требуется многомерное пространство функций, а значит, и глубокое обучение. И наоборот, наличие действительных доверительных интервалов полезно или, возможно, необходимо для принятия политических решений. Однако выбор метода оценки должен зависеть от цели эксперимента, а также размера и сложности данных. Для определения политики я был бы более склонен использовать оценки причинного леса, поскольку у нас есть измерение неопределенности указанных оценок. Однако платформа DeepIV идеально подходит для больших и сложных наборов данных.

Я приветствую отзывы и вопросы, не стесняйтесь связываться со мной в Linkedin.

Причинное машинное обучение для науки о данных: глубокое обучение с инструментальными переменными