[Этот проект был представлен на научной ярмарке Synopsys 2021–2022 годов. Эта графика, таблицы и диаграммы в посте будут обновлены, как только у меня будет больше времени.]

Введение:

Воздействие свинца может происходить от краски, содержащей свинец, химических веществ в предметах домашнего обихода и окружающей среды, такой как пыль или вода. Дети, пострадавшие от загрязнения свинцом, серьезно и необратимо страдают; это было связано с болезнью Альцгеймера и задержкой развития мозга [8]. Кроме того, взрослые, подвергшиеся воздействию свинца в детстве, в среднем имеют более низкий уровень жизни и более низкий социально-экономический статус, чем их сверстники, которые не подвергались воздействию свинца. Подсчитано, что 824 миллиона баллов IQ [7] и 51 миллиард долларов ВВП [16] в совокупности были потеряны в США из-за воздействия свинца в детстве.

Из-за присутствия свинца в деталях сантехники значительное количество свинца может попасть в питьевую воду. В среднем американские дети проводят в школе от шести до восьми часов в день, что делает ее основным местом воздействия свинца через воду. Недавнее исследование, проведенное Гарвардской школой общественного здравоохранения, показало, что уровень свинца в 44% протестированных школ превышает допустимое количество, установленное государством [14].

Когда в школах обнаруживается, что в воде содержится свинец, принимаются быстрые меры для обеспечения безопасности учащихся, такие как питьевая вода из кулеров или бутылок с водой [10]. Можно применять свинцовые фильтры; однако их установка на каждом отводе обходится дорого и не совсем эффективна [13]. Таким образом, необходимо принимать постоянные меры по исправлению положения. К ним относятся замена труб и припоев и дистилляция воды в кранах.

В настоящее время менее половины штатов США требуют, чтобы школы проверяли воду на содержание свинца. Никакой уровень свинца в воде не является безопасным, но в каждом штате есть разное пороговое количество, которое они считают небезопасным. Обычно это значение составляет 5 или 10 частей на миллиард. Поскольку большая часть свинца в воде вымывается из труб, необходимы регулярные проверки. Мэриленд, например, требует школьного тестирования один раз в три года.

Не все штаты требуют, чтобы их школы тестировали на наличие свинца, в первую очередь из-за стоимости тестирования и применения мер по исправлению положения. Хотя гранты Агентства по охране окружающей среды и федеральная помощь и помощь штата обеспечивают некоторую финансовую поддержку, они не покрывают расходы всех школ, в результате чего многие отказываются от тестирования [12].

В целом, обширное тестирование свинца является дорогостоящим и сложным. Однако целевое тестирование может сократить количество школ, подлежащих тестированию, облегчив финансовое бремя для школ и штатов и позволив им тестировать школы с высоким уровнем риска и применять меры по исправлению положения. В конце концов, количество детей, подвергшихся воздействию свинца, уменьшится, и учащиеся будут в большей безопасности в школе.

Поскольку машинное обучение можно применять для прогнозирования проблемных областей, исследователи считают, что оно может стать мощным инструментом для прогнозирования лидерства в школах. Предыдущие исследования использовали машинное обучение, чтобы предсказать, имеют ли школы в Массачусетсе и Калифорнии высокий уровень содержания свинца. Модели машинного обучения были обучены социально-экономическим, географическим и химическим данным, и модели предсказывали точные результаты примерно в 70% случаев. Исследование показывает, что подход машинного обучения на основе состояния можно использовать для прогнозирования лидерства в школах.

Модель, однако, использует химические данные, такие как температура воды и ее рН в водопроводе. В то время как социально-экономические и географические данные можно найти легко и дешево, химические данные требуют дополнительных тестов, времени и денег. Таким образом, эту методологию нельзя использовать на практике, поскольку ее невозможно эффективно использовать в условиях ограниченных временных и бюджетных ограничений.

Цель этого проекта — разработать методологию машинного обучения для дешевого и легкого прогнозирования свинца в школах, которая применима во всех штатах. Для этого необходимо использовать только легкодоступные данные, поэтому мы ограничились общедоступными данными.

Если подход будет успешным, это покажет, что методология заслуживает внимания, может быть экстраполирована на другие государства и может использоваться в реальной жизни и давать огромные преимущества.

Методы:

Конвейер разработки включает две основные части: построение набора данных и создание моделей.

Создание набора данных:

Первым шагом был выбор целевого состояния для разработки модели. Мы выбрали Нью-Гэмпшир, потому что была доступна информация об уровне содержания свинца в его детских садах. Выборка была сделана в 2019 году, что делает данные актуальными.

Хотя «безопасное значение воздействия свинца неизвестно», 5 частей на миллиард и 10 частей на миллиард обычно служат пороговыми значениями свинца [2] в исследованиях; мы использовали 5 частей на миллиард в качестве порога. Школы, которые превысили порог, были отнесены к категории высокого риска, а школы, которые упали ниже этого порога, были отнесены к категории низкого риска.

Общедоступные и легкодоступные данные включают социально-экономические данные, географические данные и данные о водоснабжении, поэтому мы создали наш набор данных с этими тремя формами.

Создание набора данных было основной частью работы. Часто было необходимо провести веб-скрейпинг и изучить несколько возможных источников данных, а также прочитать документацию об API, используемых каждым источником. Данные были зашумлены, что потребовало значительной очистки данных.

Географические данные:

Согласно предыдущим исследованиям, расстояние до ближайшей школы, в воде которой, как известно, есть свинец, является важным показателем содержания свинца в школе. В качестве географических данных служило расстояние до ближайшей школы с известным отрывом.

Расстояние по прямой между каждой парой школ требовало широты и долготы каждой школы. Эти координаты были найдены с помощью API геокодирования из Google Maps, а расстояния были сохранены в матрице.

Конвейер для сопоставления географических данных показан на рисунке 1.

Рисунок 1: Конвейер сбора географических данных.

Социально-экономические данные:

Социально-экономические данные относятся к такой информации, как демография, уровень бедности и распределение доходов в регионе. Прошлые исследования показали, что эти данные коррелируют с уровнями выщелачивания свинца, поэтому мы включили их в наш набор данных.

Указанные выше социально-экономические данные собираются Бюро переписи населения, поэтому мы использовали его базу данных. Мы использовали опрос американского сообщества за 5 лет. (ACS 5 лет), потому что он предоставляет более свежие данные и больше типов данных, чем десятилетняя перепись. Чтобы сопоставить школьные данные, мы использовали данные Нью-Гэмпшира за 2019 год.

В базе данных каждый тип социально-экономических данных хранится в отдельной таблице, организованной по номеру переписного участка. Использование АСУ 5 лет. API мы извлекли все таблицы с социально-экономическими данными только для номеров участков в Нью-Гемпшире.

Еще один инструмент, используемый Бюро переписи населения, — это карта границ участков для переписи, проводимой раз в десять лет. Границы урочища относительно стабильны в течение десятилетия, поэтому мы применили границы к ACS 5 лет. перепись. Мы использовали широту и долготу каждой школы, чтобы сопоставить их с участками, которые связали их с социально-экономическими данными.

Процесс сопоставления социально-экономических данных показан на рисунке 2.

Рисунок 2: Процесс сбора социально-экономических данных.

Служебные данные:

Последним типом данных, которые мы собрали, были служебные данные: в частности, обслуживаемое население и количество нарушений.

Сначала мы рассмотрели отчеты о доверии потребителей (CCR), которые каждое коммунальное предприятие обязано выпускать ежегодно. Однако ключевой проблемой было найти полезность каждой школы. Кроме того, не было централизованного расположения CCR, что затрудняло их поиск. Вместо этого мы использовали базу данных OneStop Navigation, созданную Департаментом экологических служб Нью-Гемпшира, что решило вторую проблему. Однако мы все еще не могли подключить каждую школу к коммуникациям.

В конце концов, мы прибегли к аппроксимации. Вместо населения, обслуживаемого коммунальным предприятием, в котором находилась школа, мы использовали среднее население, обслуживаемое всеми коммунальными предприятиями в школьном городе. Мы также использовали максимальное количество нарушений всех коммунальных услуг в городе вместо количества нарушений школьных коммунальных услуг. Этот процесс был завершен для всех школ в наборе данных.

Конвейер для сбора данных утилиты показан на рисунке 3.

Рисунок 3: Конвейер сбора данных утилиты.

В итоге в наборе данных было 640 признаков и 712 точек данных.

Создание модели:

Одна из возможных категорий моделей машинного обучения основана на том, насколько они интерпретируемы. Интерпретируемые модели упрощают интуитивное понимание типов функций, которые модель считает важными, и обеспечивают обоснование. Однако они, как правило, проще и менее надежны, чем менее интерпретируемые. Случайные леса, которые уравновешивают результаты с интерпретируемостью, стали передовой моделью при попытке получить интерпретируемые, но точные результаты.

Случайные леса — это ансамблевые модели — они состоят из нескольких меньших деревьев решений. Каждое дерево решений дает прогноз, и прогноз, который возвращается чаще всего, является выходом случайного леса. Если некоторые деревья возвращают неверный прогноз, эффект может быть смягчен деревьями, которые возвращают правильный прогноз. В целом ансамблевые модели обычно работают с более высокой точностью, чем другие модели; однако разработка с нуля требует больших усилий и тонкой настройки, поэтому это не популярный подход.

Мы использовали три модели с различной надежностью и интерпретируемостью: модель случайного леса (RF), нейронную сеть (NN) и машину опорных векторов (SVM). NN более надежен, но менее интерпретируем, чем SVM.

В то время как случайный лес и машина опорных векторов относительно просты в реализации, нейронные сети имеют гораздо большее разнообразие. Поскольку набор данных был довольно маленьким, сложные сети не подходили. Мы использовали два слоя: слой отсева, который обобщает модель и предотвращает переоснащение, и плотный слой, который использует математическую функцию для перенастройки вывода.

Чтобы сделать модели более надежными, мы внедрили два ключевых метода: перекрестную проверку и поиск по сетке.

Перекрестная проверка:

Этот метод направлен на уменьшение переобучения (когда модель хорошо работает с обучающими данными, но не обобщает) путем изменения способа создания тестовых наборов. Весь набор данных разбивается на определенное количество частей, а разные части объединяются для создания уникальных обучающих и тестовых наборов. Мы выбрали 10-кратную перекрестную проверку.

Поиск по сетке:

GridSearch настраивает гиперпараметры моделей, которые задаются перед началом обучения. В то время как внутренние параметры и веса изменяются во время обучения, гиперпараметры остаются постоянными. Однако GridSearch изменяет гиперпараметры, чтобы найти оптимальный набор, чтобы максимизировать эффективность модели.

Методология оценки:

После того, как обе методики были реализованы, модели были обучены и протестированы. Мы искали метрику, по которой можно было бы оценить их эффективность.

Частота истинно положительных (TP), истинно отрицательных (TN), ложноположительных (FP) и ложноотрицательных (FN) моделей может быть организована для формирования определенных показателей: точности, прецизионности, полноты и f1. оценка [5].

Частота ложноположительных результатов относится к проценту прогнозов наличия свинца, которые на самом деле не были свинцом, а доля истинно отрицательных результатов относится к проценту прогнозов отсутствия свинца, которые на самом деле были свинцом. Поскольку более опасно предсказывать школу как не имеющую лидерства, когда это действительно так, чем прогнозировать школу как имеющую лидерство, когда это не так, мы стремились свести к минимуму количество ложноотрицательных результатов. Минимизация может быть выполнена с использованием двух показателей: отзыв или оценка f1. Формулы для обоих показаны в уравнениях 1 и 2:

, Уравнение 1

. Уравнение 2

Отзыв направлен на минимизацию числа истинно отрицательных результатов, в то время как показатель f1, который представляет собой отношение точности и полноты, направлен на минимизацию числа истинно отрицательных результатов и максимизацию числа истинно положительных результатов. Обе метрики работают хорошо; мы выбрали счет f1.

Другой часто используемой метрикой является показатель ROC-AUC. Он связывает скорость TP со скоростью FP. Хотя его обычно не следует использовать для несбалансированных наборов данных, соответствующие работы все же сообщают о них. Таким образом, мы рассчитали показатель ROC-AUC для моделей в целях сравнения.

Чтобы убедиться, что модели не делают прогнозы произвольно, мы внедрили фиктивный классификатор для предоставления случайных предположений и сравнили его оценки f1 с оценками моих моделей. Модели работали намного лучше, показывая, что их прогнозы не были произвольными.

Полученные результаты:

Точность, прецизионность, полнота, оценка f1 и оценка ROC-AUC для каждой модели, включая фиктивный классификатор, после реализации перекрестной проверки и GridSearch показаны в таблице 1. Оценка f1 является самой высокой, полученной каждой моделью, и остальные метрики были рассчитаны с использованием тех же гиперпараметров. Как видно, нейронная сеть достигла наивысшего балла f1 среди всех моделей.

точность

точность

отзывать

f1

РПЦ

RF

0.95

0.71

0.36

0.48

0.94

NN

0.96

0.29

0.42

0.71

0.96

SVM

0.93

0.03

0.00

0.00

0.60

Дурачок

0.49

0.04

0.07

0.29

0.50

Таблица 1: Точность, прецизионность, полнота, оценка f1, оценка ROC-AUC для каждой модели.

Кроме того, кривая ROC-AUC для каждой модели представлена ​​в виде графика для наглядности. Кривые показаны на рисунке 4.

(a)

(b)

©

(d)

Рисунок 4: Кривые ROC-AUC для всех моделей. Кривые (а), (б), © и (г) соответствуют фиктивной модели, машине опорных векторов, случайному лесу и нейронной сети соответственно.

Модель с самой высокой производительностью, нейронная сеть, действительно достигла первоначальной цели. Мы определили «успех» лучше, чем фиктивный классификатор: все три встреченные модели были успешными.

Обсуждение:

Самой высокопроизводительной моделью работы с участием Калифорнии и Массачусетса был случайный лес. Мы сравнили показатель f1 и ROC-AUC моей нейронной сети и случайного леса с показателями случайного леса предыдущей работы в наборе данных Калифорнии. Оценка f1 и ROC-AUC всех трех представлены в таблице 2.

счет f1

Оценка ROC-AUC

Приор РФ

0.64

0.78

Случайный лес

0.48

0.94

Нейронная сеть

0.71

0.96

Таблица 2. Оценка f1 и оценка ROC-AUC двух разработанных мною моделей с наивысшей производительностью и случайного леса из предыдущего исследования.

Нейронная сеть имела самый высокий балл f1 из всех трех моделей, за ней следовал случайный лес предыдущей работы, за которым следовал случайный лес, который мы разработали. Оценки показывают, что модель, которую мы разработали, и модель предыдущей работы работали одинаково, указывая на то, что моя модель работала хорошо, независимо от размера набора данных и специализированных данных.

Причина, по которой моя модель работала лучше, может заключаться в том, что мы использовали нейронную сеть, тогда как в предыдущей работе использовались только интерпретируемые модели, такие как Наивный Байес. Это неудивительно, поскольку нейронные сети обычно превосходят другие модели [6].

GridSearch также предоставляет список функций, которые были наиболее важными для модели во время обучения. Одним из выводов, которые он дал, было то, что социально-экономические характеристики довольно сильно коррелируют с уровнем свинца, что подтверждает предыдущие исследования. Однако такой результат может исходить из того факта, что социально-экономических признаков было намного больше, чем полезных и географических.

Поскольку набор данных несбалансирован, мы не тратили много времени на просмотр оценок ROC-AUC; они не имеют большого значения в этом контексте.

Выводы:

Высокая производительность нейронной сети предполагает, что ее можно использовать для прогнозирования школ с высоким уровнем свинца с использованием общедоступных и легкодоступных данных, поддерживающих постановку задачи.

Хотя нейронная сеть показала лучшие результаты, не следует пренебрегать случайным лесом. Простота прогнозирования позволяет местным органам власти и школьной администрации использовать модель в качестве инструмента. Им желательно предоставить доказательства или аргументы, когда они делятся прогнозом модели — модель должна быть интерпретируемой. В этом случае случайный лес может лучше подходить для объяснения или предоставления интуиции для предсказания модели.

Мы видим приложения этой работы в ближайшем будущем. В рамках закона Build Back Better Act Агентство по охране окружающей среды выделяет миллиарды долларов на помощь в устранении свинца. Используя эту работу, руководящие органы могут определить, какие школы подвержены высокому риску вымывания свинца, и эффективно распределить деньги. Агентство по охране окружающей среды может привести веские доводы в пользу того, что оно выделило каждому штату определенную сумму денег. Действительно, мы ожидаем, что эта работа значительно ускорит процесс тестирования и исправления.

В будущем мы надеемся расширить эту работу, экспериментируя с другими формами общедоступных данных, такими как политические данные, и экспериментируя с различными типами моделей. Кроме того, мы надеемся поработать с представителем местного правительства, чтобы увидеть, как можно протестировать работу в городе.

Использованная литература:

1. Пакенхэм, Кэролайн и Бетани Олсон. «Как штаты обращаются со свинцом в школьной питьевой воде». Национальная ассоциация советов по образованию штатов, nasbe.nyc3.digitaloceanspaces.com/2021/12/Pakenham-et-al_School-Lead-Testing-Report.pdf. По состоянию на 3 марта 2022 г.

2. Первые последователи: подходы штатов к проверке школьной питьевой воды на содержание свинца в Соединенных Штатах. Гарвардская школа общественного здравоохранения, www.hsph.harvard.edu/prc/projects/early-adopters/. По состоянию на 3 марта 2022 г.

3. Лобо, Г. П. и соавт. «Выявление школ с высоким риском повышенного содержания свинца в питьевой воде с использованием только общедоступных данных». Наука об окружающей среде в целом vol. 803 (2022): 150046. doi:10.1016/j.scitotenv.2021.150046

4. Фасаи, Мохаммад Али Хаксар и др. «Разработка основы для классификации уровней содержания свинца в воде в частных системах питьевого водоснабжения: подход байесовской сети убеждений». Исследования воды vol. 189 (2021): 116641. doi:10.1016/j.watres.2020.116641

5. Шин, Теренс. «Понимание матрицы путаницы и как ее реализовать в Python». На пути к науке о данных, 1 мая 2020 г., directiondatascience.com/understanding-the-confusion-matrix-and-how-to-implement-it-in-python-319202e0fe4d. По состоянию на 3 марта 2022 г.

6. Краус, Матиа. Глубокое обучение в области бизнес-аналитики и исследования операций: модели, приложения и управленческие последствия. researchgate.net, www.researchgate.net/figure/Illustrative-comparison-between-performance-of-deep-learning-against-that-of-most-other_fig2_336078673. По состоянию на 8 марта 2022 г..

7. https://today.duke.edu/2022/03/lead-exposure-last-centre-shrunk-iq-scores-half-americans

8. https://www.epa.gov/lead/protect-your-family-sources-lead#protect

9. https://www.vdh.virginia.gov/environmental-health/onsite-sewage-water-services-updated/organizations/lead-in-private-well-water/#:~:text=Lead%20can %20входят%20грунтовые воды%20от,к%20соединяют%20трубы%20и%20стыки.

10. https://www.inquirer.com/news/philadelphia-school-district-lead-drinking-water-20220216.html

11. https://eelp.law.harvard.edu/2021/01/lead-and-copper-rule/

12. https://cehn.org/our-work/lead-in-drinking-water-town-halls/

13. https://www.consumerreports.org/water-filters/make-sure-your-water-filter-removes-lead-a5825432948/

14. https://www.hsph.harvard.edu/prc/projects/early-adopters/

15. https://www.nbcnews.com/health/health-news/lead-water-study-shows-many-schools-have-far-too-much-n956851

16. https://med.nyu.edu/departments-institutes/pediatrics/divisions/environmental-pediatrics/research/policy-initiatives/economic-costs-childhood-lead-exposure-low-middle-income-countries