Исследовательский анализ данных, полученных из системы проверки безопасности пищевых продуктов «DineSafe» города Торонто, и построение прогностической модели.

Эта статья на Medium была подготовлена ​​для проекта 2 курса CME538 в Университете Торонто командой SuperANOVA (Брант Зееман, Джейд Хуанфу, Лумин Хуан, Питер Чен). Все данные и код доступны по адресу: https://github.com/nanonuq/cme538_dinesafe.

Фон

В 2001 году городские власти Торонто внедрили открытую систему проверки безопасности пищевых продуктов под названием DineSafe, в которой регистрируются подробные отчеты о регулярных проверках объектов пищевой промышленности в соответствии с Постановлением Онтарио 493/17 [PC1], которое регулирует пищевые предприятия.

С использованием этих данных было проведено несколько исследований с различными типами результатов.

  • Первые улучшения гигиены пищевых продуктов были обнаружены после реализации этой программы (Thompson et al., 2005).
  • Недавние результаты показали, что проверки DineSafe не уменьшили количество нарушений безопасности в ресторанах (Besharah, 2015).
  • Выводы о том, что нарушения в ресторанах, по-видимому, сосредоточены в районах проживания новоприбывших, не говорящих по-английски, с низким доходом (Ng et al., 2020), что приводит к более сложным вопросам социальной справедливости.

Пандемия COVID-19 также подвергла серьезному испытанию здоровье и безопасность в пищевой промышленности, бросив вызов как операторам ресторанов, так и инспекционным отделам, даже несмотря на то, что владельцам ресторанов были предоставлены экстренные кредиты.

В Сан-Франциско разработали прогностическую модель для оценки чистоты ресторанов на основе результатов предыдущих проверок. (Озер, 2020). Модель была нацелена на анализ проверок с течением времени и прогнозирование оценки, чтобы помочь Министерству здравоохранения Сан-Франциско расставить приоритеты в своих ресурсах для проверок после COVID-19.

Кроме того, поскольку все предприятия общественного питания в городе регулярно проверяются, а проверки прекращаются с закрытием, база данных DineSafe также непреднамеренно содержит исторические записи о ресторанной индустрии Торонто. Средняя продолжительность жизни ресторанов составляет около 4,7 лет (Luo and Stark 2014), что означает, что в доступных данных отслеживается множество полных жизненных циклов ресторанов. Это можно изучить для выявления и отслеживания тенденций в ресторанной индустрии.

В этой статье представлено следующее: описание набора данных, проведенный исследовательский анализ данных и построенная прогностическая модель.

Описание набора данных

Наш набор данных включает в себя результаты проверок системы DineSafe примерно за 20 лет, в общей сложности около 730 000 записей, хранящихся в формате XML. Набор данных включает следующие типы данных: Набор данных включает различные типы данных:

Были обнаружены пропущенные значения. Кроме того, вложенный формат данных XML требовал значительной обработки и очистки, чтобы создать набор данных, пригодный для дальнейшего исследовательского анализа данных и построения модели.

Исследовательский анализ данных

Был проведен исследовательский анализ данных, чтобы лучше понять набор данных и сделать вывод, какие функции могут быть полезны для прогностической модели.

Было проведено четыре основных типа анализов:

1. Продольный — чтобы понять влияние долговечности ресторанов.

2. Географический — для анализа географического расположения нарушений и возможности выявления каких-либо тенденций относительно их местонахождения.

3. Агрегированный – чтобы понять, как принадлежность к сети или франшизе может повлиять на нарушения или рост ресторана.

4. Текстовые/семантические — чтобы понять, как названия ресторанов влияют на нарушения.

Продольный

Рестораны печально известны своей короткой продолжительностью жизни, и распространенный афоризм гласит: «90% ресторанов терпят неудачу в первый же год». Влияние блокировки COVID-19 также, похоже, оказало разрушительное воздействие на отрасль. Мы исследовали тенденции продолжительности жизни ресторанов, чтобы выяснить правду, стоящую за этим высказыванием, и определить влияние COVID-19 на отрасль. Предприятия общественного питания в Торонто в настоящее время обязаны проходить проверки от одного до трех раз в год. В результате набор данных DineSafe формирует исторический отчет о пищевой промышленности Торонто за 20-летний период.

На рисунке ниже показано количество проверок, проводимых в месяц. Количество проверок неуклонно росло и в 2014 году было близко к нормативному мандату, предписывающему 1-3 проверки в год. В некоторых ресторанах проводится гораздо больше проверок, чем предусмотрено правилами, поскольку условный пропуск или закрытие требуют последующей проверки в течение недели, а вспышки заболеваний и жалобы также вызывают проверки.

Блокировка COVID-19 2020 года полностью прекратила проверки, восстановление после которых все еще продолжается: среднее количество дней между проверками увеличилось с 66 дней до почти двух лет после начала блокировки в Онтарио 21 марта 2020 года. Значительное количество рестораны (некоторые из которых еще работают) не проверялись с 2019 года.

Чтобы изучить влияние COVID-19 на успех или неудачу ресторана, мы сначала установили базовый уровень продолжительности жизни ресторана до пандемии. Сначала мы включили для анализа только рестораны, продавцов еды на вынос и фуд-кортов (группа, которую мы обычно будем называть ресторанами), поскольку их бизнес-модели похожи друг на друга и сильно отличаются от других заведений общественного питания в наборе данных, таких как детские сады и супермаркеты. На рисунке ниже показано количество заведений общественного питания по типам в наборе данных, показывающее, что рестораны, рестораны на вынос и фуд-корты составляют более 60% всех зарегистрированных заведений общественного питания. Доля проверок аналогична, более 60% проверок относятся к этой группе.

Чтобы определить базовую продолжительность жизни ресторана, нам нужно было определить, какие рестораны не работают. Набор данных DineSafe иногда отслеживает, когда рестораны прекращают свою деятельность, меняя их статус на «Не работает», но это не согласуется с несколькими ресторанами-зомби в наборе данных. Мы также считали неработающими рестораны, которые последний раз проверялись в 2018 году. Мы также считали, что рестораны, которые были заменены по тому же адресу новым рестораном (с его первой проверкой после последней проверки предыдущего ресторана), также не работали.

Это позволило нам измерить возраст ресторанов на момент их закрытия. Кроме того, около четырехсот ресторанов работали по всему набору данных. Типы продолжительности жизни ресторана показаны ниже.

Существует некоторая неопределенность в отношении того, когда некоторые из этих ресторанов фактически открылись, из-за более низкой частоты проверок в начале набора данных. Мы полагаем, что ошибка будет в пределах одного года от расчетного возраста. Поскольку мы знаем их возраст на момент закрытия, мы включили первый и третий типы ресторанов, чтобы построить кривую выживания, показанную ниже. Кривая выживания показывает, какой процент ресторанов доживает до определенного возраста, например. 50% ресторанов терпят неудачу к 3,5 годам, а 3% не терпят неудачу к 22 годам.

Уровень отказов в первый год, составляющий 17%, соответствует аналогичному анализу за 20 лет, проведенному в 2014 г. в США (Luo and Stark, 2014), но средний срок службы ресторанов в Торонто был ниже — 3,5 года, по сравнению с 4,7 года в 2014 г. изучать.

Форма кривой выживания сильно напоминает экспоненциальную кривую затухания с константой затухания 17%. Другими словами, 17% ресторанов терпят неудачу не только в первый год работы, но и 17% ресторанов терпят неудачу в любом году. Управление рестораном в Торонто похоже на ежегодный бросание шестигранной кости: если выпадет 1, бизнес потерпит неудачу. На рисунке ниже показана вероятность неудачи в любой конкретный год жизни бизнеса. Четкой тенденции не видно, что говорит о том, что возраст ресторана не защищает от неудач.

С исходными данными о продолжительности жизни мы смогли построить график разницы в продолжительности жизни между ресторанами, которые потерпели неудачу до COVID, и ресторанами, которые потерпели неудачу во время COVID. Если бы карантин из-за COVID-19 привел к массовым банкротствам ресторанов, мы могли бы ожидать, что средний возраст ресторанов при закрытии резко снизится, поскольку риск закрытия в любом возрасте возрастет. На рисунке ниже показаны только те рестораны, которые открывались и закрывались в пределах набора данных, за исключением выживших. Чтобы уменьшить предвзятость по отношению к общим тенденциям, мы нанесли на карту только те рестораны, которые закрылись в 2018–2020 годах для когорты до COVID.

Похоже, что COVID-19 оказал лишь временное влияние на ресторанную индустрию

Мы видим, что средний возраст при закрытии фактически увеличился примерно на 1,5 года! Во многом это можно объяснить смещением выборки. Поскольку среднее время между проверками увеличилось с двух месяцев до двух лет, многие рестораны могли выйти из строя, но их просто еще не проверили. Эта нестационарность в частоте выборки означает, что мы не можем точно определить, какое влияние COVID-19 оказало на набор данных, но мы можем установить верхнюю границу воздействия. Если бы наблюдались массовые неудачи, даже с учетом проблем с выборкой, мы, вероятно, увидели бы значительное снижение выживаемости для ресторанов возрастом от 0 до 3 лет (т. е. открытых непосредственно перед или во время COVID-19). Мы можем сделать вывод, что COVID-19, вероятно, оказал временное влияние на ресторанную индустрию, хотя для более точной оценки последствий потребуется вернуться к уровню проверок до пандемии.

Географический

Расположение нарушений представляло интерес, чтобы увидеть, есть ли какие-либо четкие тенденции, которые можно было бы использовать для построения прогностической модели. На рисунке ниже показаны все нарушения на тепловой карте.

На приведенном выше рисунке четко показана тенденция, в которой нарушения коррелируют с концентрацией ресторанов, что можно наблюдать, поскольку самая высокая концентрация ресторанов будет в центре Торонто, совпадающая с самым красным цветом.

После этого был проведен анализ, чтобы конкретно рассмотреть критические, существенные и незначительные нарушения. Они показаны на следующих рисунках.

Поскольку обзор концентрации правонарушений не привел к каким-либо существенным выводам, следующий анализ должен был выяснить, существует ли корреляция между средним доходом в районе и количеством правонарушений. Шейп-файл, содержащий данные переписи населения 2016 года, был загружен с сайта Canadian Census Analyser.

Используя это, был построен график плотности средних доходов в 2015 году, который представлен на рисунке ниже.

Средний доход составляет около 50 000 долларов, что указывает на то, что данные шейп-файла, вероятно, надежны. Затем был рассчитан уровень правонарушений по районам, взяв соотношение нарушений и проверок. Доход по сравнению с уровнем правонарушений был сравнен на следующем графике рассеяния.

По-видимому, существует минимальная корреляция между уровнем правонарушений и средним общим доходом. Однако очевидно, что в районах с более высоким средним совокупным доходом правонарушений меньше. Это также может быть связано с меньшим количеством ресторанов в этих районах, однако анализ показывает, что использование уровня нарушений в районе и среднего общего дохода района в качестве характеристик может быть полезным.

Совокупный

Ресторанные франшизы существуют для обеспечения единых продуктов питания в разных местах. По данным Школы управления гостиничным бизнесом Бостонского университета, «любая компания, управляющая тремя или более ресторанами из общей штаб-квартиры, считается сетью» (Muller, 2018). Это определение было сохранено для общего анализа цепей. Во-первых, из названий ресторанов были удалены знаки препинания и заглавные буквы. Затем, чтобы найти изменение количества сетей, был создан сгруппированный набор данных, сгруппированный по годам, затем по названию ресторана. Затем производилась агрегация путем подсчета количества уникальных идентификаторов заведений для каждого имени. Общее количество сетей по годам в наборе данных DineSafe показано ниже.

Исходя из вышеизложенного, кажется, что в период, совпадающий с пандемией COVID-19, наблюдается странное падение количества сетей. Поскольку каждая строка будет соответствовать одной инспекции в наборе данных, корректировка процесса инспекции из-за пандемии, скорее всего, приведет к сокращению, а некоторые, возможно, вообще не проверялись. Таким образом, цепной анализ за эти годы может быть ненадежным.

Десять лучших цепочек в 2022 году были получены путем сортировки значений в сгруппированном наборе данных. Используя это, количество отдельных ресторанов в первой десятке сетей в 2022 году было нанесено на график за последние 20 лет на рисунке ниже.

Мы видим, что Тим Хортон и Subway в целом доминируют в этом графике. Покупатели наркомаркетов, похоже, имеют менее линейную тенденцию по сравнению с другими, что может быть связано с двумя аспектами: корректировкой бизнес-стратегии, которая приводит к закрытию торговых точек и их повторному открытию в других местах, или прекращению продаж продуктов питания в определенных магазинах, что приведет к прекращению продаж. больше не нуждается в осмотре. Мы также можем заметить ту же тенденцию в 2019/2020 годах, когда COVID-19, похоже, влияет на достоверность данных.

Изучение изменения количества точек продаж для каждой сети было проведено путем сопоставления разницы между количеством точек продаж в 2022 году с количеством точек продаж в 2010 году. На рисунках ниже показаны 10 ведущих растущих и сокращающихся сетей соответственно. .

Для целей этого анализа любой результат, который явно не был «пройден», считался «не пройденным». Эти результаты были отображены в наборе данных. Кроме того, в набор данных было добавлено то же правило, согласно которому три или более местоположений представляют собой цепочку, с назначением строкового тега «цепочка» или «не_цепочка» новому столбцу на основе этого правила. Исходя из этого, два новых столбца были рассчитаны на ежегодной основе. Первым был уровень отказов «цепочки», который для всех местоположений, принадлежащих цепочке, был бы отношением «Not_Pass» к «Pass». Вторым был процент отказов «not_chain», который представлял собой тот же расчет, но специально для местоположений, не принадлежащих к цепочке. Они были нанесены на линейную диаграмму, чтобы показать изменение за период данных и показаны на рисунке ниже.

Как видно из приведенной выше диаграммы, точки, принадлежащие к сети, как правило, чаще получают результат «пройдено» во время проверок. Это расхождение, как правило, колеблется примерно от 8% до 1%, в зависимости от года.

Текстовый/Семантический

Жанр еды и чистота:

Тип ресторана является одним из важнейших факторов, влияющих на общие меры безопасности пищевых продуктов в ресторане. Причина сводится к разным стилям приготовления и методам подачи различных региональных вкусов продуктов. Например, предпочтение сырой пищи в японских суши-ресторанах сильно отличается от предпочтения гриль-хауса с барбекю, поэтому меры безопасности пищевых продуктов между ними могут значительно различаться.

Название заведения обычно может отражать его жанры еды и особый тип их подачи, и SuperANOVA подошла к проблеме исходя из этого. Благодаря фирменному характеру названий ресторанов мы можем исследовать слова в названиях ресторанов вместе с результатами проверки дочерних ресторанов, чтобы обобщить взаимосвязь между типом ресторана и его чистотой.

Используя данные DineSafe, для каждого слова в названии ресторана рассчитывается уровень нарушений. Он измеряет долю ресторанов, в которых есть определенное слово, но при этом имеется запись о нарушении в истории записей проверок.

Например, слово «ГРИЛЬ» обычно используется в названии гриль-хауса или корейских барбекю. Результат «ГРИЛЬ» показан ниже.

Результат показывает, что слово «ГРИЛЬ» имеет уровень нарушений 0,87; То есть 87 % ресторанов со словом «ГРИЛЬ» в названии имеют или имели правонарушение, нарушающее Регламент Онтарио о пищевых помещениях (493/17).

Счетчик NUM важен в этом анализе. Он представляет собой степень распространенности слова в названии ресторана. Слова, которые появляются всего несколько раз среди всех названий ресторанов, будут считаться слишком нишевыми для обобщения корреляции. Например, если ресторан называется «Ресторан ДЕСЕПТИКОНОВ» и в нем есть нарушение. Хотя слово «ДЕСЕПТИКОНЫ» вряд ли будет в названии других ресторанов, слово «ДЕСЕПТИКОНЫ» будет иметь уровень нарушения 1 (или 100%), что в данном случае не будет очень полезным для нашего анализа.

Таким образом, установлено пороговое значение 80, чтобы отсечь слова, которые встречаются менее 80 раз во всех ресторанах.

Но почему 80?

Как уже говорилось, более низкий порог сделает результат слишком нишевым для обобщенного результата. С другой стороны, более высокий порог начнет ограничивать результаты связанными франшизами. Высокий порог может легко отфильтровать большинство региональных ресторанов и сохранить такие сетевые франшизы, как McDonald’s. Пороговое значение 80 определяется с помощью повторного анализа и в конечном итоге оказывается наиболее сбалансированным для включения обширного жанра еды, но не сверхниши.

Результат очень интересный, мы перечислили 10 слов в названии ресторанов, которые имеют самый высокий уровень нарушений. Судя по гистограмме результатов, более 90% ресторанов, в названии которых есть слова, имеют или имели нарушение правил безопасности пищевых продуктов.

Согласно результатам, четыре типа продуктов питания азиатского региона (красные столбцы на приведенной выше диаграмме) входят в первую десятку слов с самым высоким уровнем нарушений. Считается, что слово «WOK» относится к ресторанам в китайском стиле, а «GOLDEN», скорее всего, предлагает блюда азиатской кухни. Слова голубого цвета «паб» и «крыло» обозначают уважаемые рестораны в стиле паба, которые заняли 5-е и 7-е место в списке. McDonalds, являющийся единственной сетевой франшизой в списке, находится на 4-м месте, а рогалики, являющиеся завтраком для большинства, занимают 6-е место в списке. Есть два слова, которые нельзя отнести к определенному стилю ресторана: «Ресторан» и «Место».

Как клиенты, мы все обеспокоены состоянием безопасности пищевых продуктов в ресторанах. Однако вместо того, чтобы рассматривать только общие нарушения, мы больше обеспокоены теми недостатками, которые являются более значительными. Тот же анализ выполняется снова, но на этот раз набор данных фильтруется с помощью флага серьезных и критических нарушений уровня серьезности. Результат показан ниже.

На этот раз в списке пять ресторанов в азиатском стиле, где «ТАЙСКИЙ» и «ИНДИЙСКИЙ» — новые слова. McDonalds увеличил рейтинг нарушений до 2-го места при применении фильтра серьезности. Рестораны в стиле бейгл и паб по-прежнему находятся в списке. Список слов с максимальным уровнем нарушений после введения фильтра высокой серьезности не сильно меняется по сравнению с предыдущим анализом. Это приводит к выводу, что покупателям нужно быть внимательными при выборе азиатских ресторанов, пабов, а также рогаликов и Макдональдсов.

Модель нарушения

Первая модель, которую мы построили, должна была попытаться предсказать, будет ли обнаружено нарушение, основываясь на характеристиках человека.

Структура модели

В модели нарушения использовалась логистическая регрессия, основанная на конвейере, показанном на следующем рисунке.

Модель использует полиномиальные функции scikit-Learn, чтобы умножать числовые функции и получать от них полиномы, а затем масштабировать их. Для категориальных признаков они были закодированы одним горячим способом. После этого SelectKBest использовался для выбора основных функций для модели логистической регрессии.

Разработка и выбор функций

В модели использовались функции, указанные в следующей таблице, которые были получены из EDA, описанного в предыдущих разделах.

Полученные результаты

Логистическая модель имела оценку f1 0,47 на тестовом наборе данных. На рисунке ниже показана доля истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов.

Низкий показатель f1 для этой модели, скорее всего, связан с количеством функций. Поскольку набор данных записывает результаты проверки, многие из потенциальных функций не могут быть использованы, так как не будет никаких примечаний/описаний или степеней серьезности для ресторанов, не нарушающих правила. В результате функции, которые фиксируют их, не могут быть использованы.

Модель выживания

Мы построили модель, чтобы выяснить, какие условия наиболее важны для успеха ресторана, и предсказать, какие рестораны с наибольшей вероятностью потерпят неудачу.

Структура модели

В модели использовалась логистическая регрессия, где каждый ресторан имел характеристики, агрегированные по каждому году его существования. Лежащий в основе обучающий набор был сбалансирован по выживанию и неудаче, поскольку базовый набор сильно смещен в сторону выживания (поскольку у каждого ресторана есть 1/6 шанса провала, мы ожидаем, что по крайней мере 5/6 рядов будут выжившими).

Сначала мы разделим модель на тестовую и обучающую выборки. Затем мы подогнали модель к нормализованным функциям, чтобы получить базовую производительность, а затем использовали рандомизированный поиск гиперпараметров, чтобы улучшить производительность обучающей модели.

Мы использовали наиболее эффективную комбинацию гиперпараметров, чтобы подогнать окончательную модель и оценить производительность модели на тестовом наборе данных.

Разработка и выбор функций

Все категориальные признаки были нормализованы в диапазоне от 0 до 1, а логические признаки были преобразованы в двоичные целые числа. Функции, извлеченные для создания регрессии, были следующими:

Полученные результаты

Логистическая модель имела оценку F1 0,79 в тестовом наборе данных. На приведенном ниже рисунке показан процент истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов, где 0 означает, что ресторан был закрыт в этом году.

Модель имела полноту 0,34 для прогнозирования сбоев, что соответствует примерно одной трети всех фактических сбоев. Хотя эта модель уступает по точности той, которая дает только прогнозы выживания (т. е. только выход 1), она имеет некоторый уровень предсказательной силы.

Наивысшими весовыми коэффициентами модели, связанными с отказом ресторана, были: количество серьезных нарушений, непринадлежность к сети, количество незначительных нарушений и наличие ресторана на вынос. Интересно, что работа во время COVID-19 практически не повлияла на закрытие. Это может быть связано с эффектом систематической ошибки выборки, о котором говорилось ранее, но это подтверждает предварительный вывод о том, что блокировка COVID-19 существенно не повлияла на ресторанную индустрию Торонто.

Выводы

Нарушения непропорционально собираются азиатскими ресторанами. Причина этого требует дальнейшего изучения. Предыдущие работники обнаружили, что нарушения коррелируют с более низким доходом в районе и более высокой долей вновь прибывших в Канаду, предполагая, что социальная справедливость может способствовать этому. Смещение выборки также может сыграть свою роль, поскольку распределение проверок неравномерно и становится еще более неравномерным с пандемией COVID-19.

В ресторанах Торонто уровень отказов в первый год очень близок к предыдущим оценкам, но средний срок службы ресторанов Торонто на год короче, чем указано в предыдущих исследованиях (3,5 года против 4,5 лет).

Поскольку уровень нарушений также коррелирует с принадлежностью к сети, оба фактора имеют большое значение в определении выживания, связь между ними может выиграть от дальнейшего изучения.

Будущая работа получит большую пользу от семантического подхода к классификации стилей еды в ресторанах по названиям ресторанов, чтобы дополнительно изучить аспект социальной справедливости в этом наборе данных.

Рекомендации

Томпсон С., де Бургер Р. и Кадри О. (2005 г.), Система проверки и раскрытия информации о пищевых продуктах в Торонто: тематическое исследование, British Food Journal, Vol. 107 №3, стр. 140–149. https://doi.org/10.1108/00070700510586461

Бешара, А., Школа медицинских наук BCIT, гигиена окружающей среды, и Хикок, Х. (2015). Dinesafe Toronto: оценка системы вывесок. Журнал общественного здравоохранения BCIT. https://doi.org/10.47339/ephj.2015.117

Луо, Т. и Старк, П.Б. 2014. Только плохие умирают молодыми: ресторанная смертность на западе США.
https://doi.org/10.48550/arXiv.1410.8603

Нг, Д.Л.Т. и другие. 2020. Пространственное распределение и характеристики результатов проверки ресторанов в Торонто, Онтарио, 2017–2018 гг. Тенденции в области защиты пищевых продуктов, 40(4).

Мюллер, К. (nd). Когда группа является сетью, а сеть брендом? | Обзор гостеприимства Бостона. Получено 1 декабря 2022 г. с сайта https://www.bu.edu/bhr/2018/02/26/when-is-a-group-a-chain-and-a-chain-a-brand/#_ftn1. »