Это, безусловно, тяжелое время для всего земного шара. По данным Всемирной организации здравоохранения, COVID-19 теперь официально является пандемией, и в настоящее время во всем мире зарегистрировано более 200 000 подтвержденных случаев заболевания COVID-19.

По мере того как COVID-19 распространялся из одной точки мира в другую, Интернет погрузился в состояние беспрецедентного хаоса. Огромное количество новостей, инфографики, слухов, мемов и постов о социальном дистанцировании витает почти в каждом уголке Интернета. Тем не менее, состояние хаоса в Интернете приводит к одному результату; массовое производство данных.

Поскольку вы каким-то образом наткнулись на эту статью, я предполагаю, что вы осведомлены обо всех проблемах конфиденциальности в Интернете и что в последнее время вы соглашаетесь со многими условиями, касающимися использования ваших данных. Но разрешите ли вы технологическим компаниям делиться вашим местоположением в режиме реального времени, чтобы отслеживать распространение COVID-19? Согласно сообщению Washington Post, правительство США обсуждает возможность обмена данными о местонахождении пользователей с частными технологическими компаниями, такими как Google, Facebook и другими, в надежде отслеживать распространение вируса и прогнозировать, где он потенциально может поразить. следующий. Стоит отметить, что в Сингапуре такие идеи уже реализованы через приложение под названием TraceTogether. Это приложение отслеживает людей, находящихся поблизости, и в случае заражения одного человека люди, с которыми он взаимодействовал, получают уведомление. Самое главное, TraceTogether не собирает личные данные или данные о местоположении пользователей. Еще одна услуга, запущенная в Сингапуре, — COVID19SG. Этот сервис позволяет отслеживать каждый случай заражения в Сингапуре. Он даже позволяет узнать, в какую больницу был госпитализирован каждый заболевший, где они жили и работали, как они могли заразиться вирусом, а также о связях между различными зараженными в рамках социальной сети.

Правительство США также обратилось с призывом к национальным экспертам по искусственному интеллекту разработать методы, которые могут генерировать информацию из Открытого исследовательского набора данных COVID-19 (CORD-19). Набор данных был разработан исследователями из Института искусственного интеллекта Аллена, Инициативы Чана Цукерберга, Центра безопасности и новых технологий Джорджтаунского университета, Microsoft и Национальной медицинской библиотеки при Национальных институтах здравоохранения. Данные включают машиночитаемые новые исследования COVID-19 для рецензируемых публикаций и архивных сервисов, таких как bioRxiv и medRxiv.

Теперь давайте немного поговорим о состоянии данных о распространении COVID-19, и я ограничу обсуждение данными о случаях, зарегистрированных в США. Ниже представлена ​​диаграмма, которую я создал с использованием данных Всемирной организации здравоохранения (ВОЗ), Центра системных наук и инженерии Университета Джона Хопкинса и Worldometer.

Я хотел бы включить данные из Центров по контролю за заболеваниями (CDC), но из-за того, как CDC решил сообщить свои исторические данные, диаграмма не соответствует общему количеству случаев, сообщаемых на их веб-сайте каждый день.

Как вы могли заметить, за исключением данных John’s Hopkins и Worldometer, в отчетах из разных источников нет согласованности. Как ни странно, Наш мир в данных (на базе Оксфордского университета) обнаружил множество несоответствий в отчетах ВОЗ, которые указаны на их странице исходные данные. (Наиболее достоверным источником на момент написания этой статьи являются данные Университета Джона Хопкинса)

Раздраженный несоответствиями, которые я наблюдал в отчетах о данных, я взял на себя обязательство помочь предоставить исторические данные о COVID-19. Я написал несколько скриптов веб-скрейпинга и буду публиковать данные, которые они собирают, в папке Google Диска, которую я буду обновлять ежедневно к концу каждого дня по восточному поясному времени. В папку будут включены данные начиная с 18 марта. Найдите папку здесь.

Эта папка содержит файл «.csv», который содержит количество подтвержденных случаев и смертей в соответствии с веб-сайтом CDC. Вы можете легко скачать файл и получить к нему доступ в Excel. Это должно послужить более интуитивной заменой историческим данным, доступным в настоящее время на веб-сайте CDC.

Папка Google Диска также будет содержать папку, содержащую копии веб-сайтов веб-портала данных каждого штата и территории Corona. Каждая веб-страница будет сохранена как в виде изображения, так и в виде файла PDF. Это должно оказаться полезным для тех, кто хочет отслеживать производительность отдельных состояний. Особенно отслеживание случаев в разных округах и городах и другие полезные показатели, сообщаемые разными штатами.

Предназначено для технической аудитории:

Поскольку разработка универсального веб-скребка для веб-сайтов Corona в каждом штате оказалась сложной из-за того, как данные сообщаются на каждом веб-сайте (карты, графики, изображения и т. д.), мне не удалось извлечь числовые значения из все сайты штатов. Поэтому я прибег к очистке веб-сайтов как в виде изображений, так и в виде файлов PDF, которые содержат большую часть, если не все содержимое веб-сайтов. Данные, которые предоставляет этот скрипт, должны оказаться полезными для отслеживания эффективности штатов с течением времени, особенно с учетом того, что некоторые веб-сайты включают данные по разным городам и округам наряду с другими показателями.

Если у вас есть опыт работы с Python, не ждите, пока я обновлю папку на Диске, и хотите получать данные в удобном для вас темпе. Исходный код доступен в репозитории Github ниже. Если вы обнаружите какие-либо проблемы, сообщите мне, и я сделаю все возможное, чтобы поддерживать код



Я хочу подчеркнуть, что вы можете сыграть важную роль в этой запутанной ситуации с данными. Самое главное, не делитесь новостями, если вы не проверяете источник, так как именно так распространяются слухи. Распространение ложных новостей снижает производительность усилий по интеллектуальному анализу данных, которые пытаются отследить распространение вируса. Я также призываю вас воздержаться от публикации графиков и моделей, которые пытаются предсказать поведение вируса, это работа эпидемиологов. Независимо от того, насколько вы опытны в работе с данными, если у вас недостаточно знаний в области эпидемиологии, пожалуйста, не делитесь своими выводами. Я не пытаюсь отговорить вас от обработки доступных данных, пожалуйста! Все, о чем я прошу, это не публиковать графики, которые пытаются предсказать поведение вируса, или другие графики, которые могут вызвать панику среди населения. Вот 10 соображений, прежде чем создавать еще одну диаграмму о COVID-19

Самое простое и эффективное решение, которое вы можете сделать прямо сейчас, – сделать доступными исторические данные по штатам и территориям США. Большинство штатов и территорий сообщают свои данные в режиме реального времени и не ведут исторические записи на своих веб-сайтах. Один из простых способов помочь — это регулярно отслеживать один или несколько таких веб-сайтов и записывать данные на лист Excel или что-то подобное. Некоторые штаты сообщают не только о количестве подтвержденных случаев, поэтому, пожалуйста, постарайтесь собрать как можно больше данных. Если вы не знаете, где найти данные, обратитесь к разделу ресурсов данных ниже.

Алабама: «http://www.alabamapublichealth.gov/infectiousdiseases/2019-coronavirus.html»
Аляска: «http://dhss.alaska.gov/dph/Epi/id/Pages/COVID-19/ default.aspx»
Аризона: «https://www.azdhs.gov/preparedness/epidemiology-disease-control/infectious-disease-epidemiology/index.php#novel-coronavirus-home»
Арканзас : «https://www.healthy.arkansas.gov/programs-services/topics/novel-coronavirus»
Калифорния: «https://www.cdph.ca.gov/Programs/CID/DCDC/Pages /Immunization/ncov2019.aspx»
Колорадо: «https://covid19.colorado.gov/data»
Коннектикут: «https://portal.ct.gov/Coronavirus»
Делавэр : «https://www.dhss.delaware.gov/dhss/dph/epi/2019novelcoronavirus.html»
Округ Колумбия: «https://coronavirus.dc.gov/page/coronavirus-data»< br /> Флорида: «https://floridahealthcovid19.gov/»
Грузия: «https://dph.georgia.gov/covid-19-daily-status-report»
Гавайи: «https ://health.hawaii.gov/docd/advisories/novel-coronavirus-2019/»
Айдахо: «https://co ronavirus.idaho.gov/»
Иллинойс: «http://www.dph.illinois.gov/topics-services/diseases-and-conditions/diseases-az-list/coronavirus»
Индиана: «https://www.in.gov/coronavirus/index.htm»
Айова: «https://idph.iowa.gov/Emerging-Health-Issues/Novel-Coronavirus»
Канзас: «https://govstatus.egov.com/coronavirus»
Кентукки: «https://govstatus.egov.com/kycovid19»
Луизиана: «http://ldh.la.gov/Coronavirus /»
Мэн: «https://www.maine.screen_shotgov/dhhs/mecdc/infectious-disease/epi/airborne/coronavirus.shtml»
Мэриленд: «https://coronavirus.maryland. gov/»
Массачусетс: «https://www.mass.gov/info-details/covid-19-cases-quarantine-and-monitoring»
Мичиган: «https://www.michigan .gov/coronavirus»
Миннесота: «https://www.health.state.mn.us/diseases/coronavirus/situation.html»
Миссисипи: «https://msdh.ms.gov /msdhsite/_static/14,0,420.html»
Миссури: «https://health.mo.gov/living/healthcondiseases/communicable/novel-coronavirus/ »
Монтана: «https://dphhs.mt.gov/publichealth/cdepi/diseases/coronavirusmt»
Небраска: «http://dhhs.ne.gov/Pages/Coronavirus.aspx#SectionLink3 »
Невада: «http://dpbh.nv.gov/Programs/OPHIE/dta/Hot_Topics/Coronavirus/»
Нью-Гемпшир: «https://www.nh.gov/covid19/»
Нью-Джерси: «https://www.nj.gov/health/cd/topics/covid2019_dashboard.shtml»
Нью-Мексико: «https://cv.nmhealth.org/»
Нью-Йорк: «https://www1.nyc.gov/site/doh/health/health-topics/coronavirus.page»
Северная Каролина: «https://www.ncdhhs.gov/covid-19 -case-count-nc»
Северная Дакота: «https://www.health.nd.gov/diseases-conditions/coronavirus/north-dakota-coronavirus-cases»
Огайо: «https: //coronavirus.ohio.gov/wps/portal/gov/covid-19/»
Оклахома: «https://coronavirus.health.ok.gov/»
Орегон: «https:// govstatus.egov.com/OR-OHA-COVID-19»
Пенсильвания: «https://www.health.pa.gov/topics/disease/coronavirus/Pages/Cases.aspx»
Род Остров: «https://health.ri.gov/data/co vid-19/»
Южная Каролина: «https://www.scdhec.gov/monitoring-testing-covid-19»
Южная Дакота: «https://doh.sd.gov/news /coronavirus.aspx»
Теннесси: «https://www.tn.gov/health/cedep/ncov.html»
Техас: «https://www.dshs.texas.gov/news /updates.shtm#coronavirus»
Юта: «https://coronavirus.utah.gov/latest/»
Вермонт: «https://www.healthvermont.gov/response/infectious-disease/ 2019-novel-coronavirus»
Вирджиния: «http://www.vdh.virginia.gov/coronavirus/»
Вашингтон: «https://www.doh.wa.gov/Emergencies/Coronavirus »
Западная Вирджиния: «https://dhhr.wv.gov/COVID-19/Pages/default.aspx»
Висконсин: «https://www.dhs.wisconsin.gov/outbreaks/ index.htm»
Вайоминг: «https://health.wyo.gov/publichealth/infectious-disease-epidemiology-unit/disease/novel-coronavirus/»
Пуэрто-Рико: «http:// www.salud.gov.pr/Pages/coronavirus.aspx»
Виргинские острова: «https://doh.vi.gov/covid19usvi»
Гуам: «http://dphss.guam.gov /2019-новый-коронавирус-2019-n- ков/»

Для исследователей:

Информационный центр нового коронавируса Elsevier

Открытый исследовательский набор данных COVID-19 (CORD-19)

Геномная эпидемиология нового коронавируса Next Strain

Данные о новых случаях коронавируса (COVID-19) Джона Хопкинса. Включает данные по штатам, некоторым округам и городам. Представленные здесь данные наиболее точно соответствуют данным, официально опубликованным штатами и территориями.

Для общественности:

Общедоступная информационная панель Tableau COVID19 (использует данные Джона Хопкинса)

Oxford’s Our World in Data: Coronavirus Disease (COVID-19) Statistics and Research (очень подробный и простой для навигации)

Записи по штатам и территориям США:

Corona: о кризисе данных, которые имеют значение, как вы можете помочь и где найти достоверные данные