Написано командой MSBA Capstone в сотрудничестве с 99P Labs: Ти Лакхананукун, Прак Пола, Ребекка Стивенс и Джоселин Ван

Команда MSBA Capstone входит в программу Магистр наук в области бизнес-аналитики Университета Карнеги-Меллона.

Оглавление

Обзор проекта

У нашей команды была возможность сотрудничать с 99P Labs, исследовательской группой, занимающейся разработкой инновационных функций, концепций, услуг и проектов, чтобы оставаться на переднем крае индустрии мобильности и потенциально трансформировать ландшафт транспорта. В недавнем связанном проекте группа студентов из Беркли построила модель для прогнозирования времени пребывания и местоположения транспортных средств на основе данных автомобильных датчиков и инфраструктуры от ведущего производителя автомобилей. В задаче, которую нам поставили, главный вопрос, который мы хотим решить, заключается в следующем: Если мы можем предсказать время простоя и местонахождение наших транспортных средств, какие бизнес-возможности мы можем использовать с этой информацией?

Структура проекта

Мы использовали структуру CRISP-DM (межотраслевой стандартный процесс для интеллектуального анализа данных) в качестве руководства при работе над проектом. В этой структуре есть шесть последовательных процессов, которые мы обсудим в следующих разделах (см. рисунок ниже): понимание бизнеса, понимание данных, подготовка данных, моделирование, проверка и развертывание.

Понимание бизнеса

С набором данных Telematics мы хотим изучить использование прогностических моделей для повышения ценности бизнеса. В качестве отправной точки мы обдумали бизнес-идеи, которые могли бы использовать модели прогнозирования местоположения и времени пребывания, которые будут рассмотрены более подробно в следующем разделе. Одна из идей, в частности, заключается в предоставлении услуг по техническому обслуживанию транспортных средств, что, по нашему мнению, хорошо согласуется с существующей возможностью 99P Labs предлагать автомобильные услуги через автосалоны. Это предоставит клиентам удобный способ регулярного технического обслуживания автомобиля как дома, так и в густонаселенных районах (например, на работе, в продуктовом магазине, торговом центре и т. д.). Данные автомобильных датчиков могут не только обеспечивать обратную связь в режиме реального времени для компании, но и время задержки, полученное на основе функций в наборе данных и местоположении, также может предоставить предполагаемые временные рамки и оптимальное местоположение для поставщика услуг.

Хотя в нашем распоряжении были ранее созданные прогностические модели, эти модели времени пребывания и местоположения были привязаны к региону Огайо и были построены без акцента на определении важности признаков и интерпретируемости модели. Без такого понимания модели трудно дать четкие и действенные рекомендации, которые будут ценны для бизнеса. Поэтому еще одна наша цель — определить важные особенности, которые влияют на результаты определения местоположения и времени пребывания. Наконец, мы хотим разработать структуру, которую 99P Labs может использовать для проверки моделей и определения готовности к производству. Мы надеемся создать эту структуру более полно во второй половине нашего проекта, о которой будет рассказано в следующем посте в блоге.

Исследование предыстории и понимание конкуренции
Прежде чем разработать стратегию, нам необходимо сначала изучить услуги, уже доступные на рынке прямыми конкурентами. В настоящее время OEM-производитель предлагает широкий спектр услуг по техническому обслуживанию на дому и использует удаленную диагностику для предварительной диагностики ремонта. Услуги и обзор автомобилей доступны для их клиентов через интегрированное приложение, которое позволяет OEM-производителю отправлять напоминания об обслуживании, рекомендации по продуктам и другую полезную информацию. Пока автомобиль находится на гарантии, за текущий ремонт плата не взимается. Вне гарантийного срока OEM взимает плату за рабочую силу в среднем 150 долларов в час.

Есть и другие удобные услуги. Через веб-сайт клиенты могут запланировать общее техническое обслуживание практически каждой детали своего автомобиля. Они предлагают услуги для многих марок и моделей автомобилей. При выборе услуги предлагаются дополнительные рекомендуемые услуги, которые также могут потребоваться, а также рекомендуемые интервалы обслуживания. Затем они генерируют расчетное время обслуживания и позволяют клиентам запланировать ремонт, после чего они объединяют клиентов с механиками на основе близости. Этот сервис очень универсален, но требует много действий пользователя. Мы можем улучшить эту модель, автоматизируя услуги, предоставляя услуги по подписке и настраивая рекомендации по продуктам на основе истории потребителей и автомобилей. Модели прогнозирования могут сократить количество необходимых взаимодействий с клиентами, предоставить стратегии продвижения и помочь поставщикам услуг стать более активными в обращении к клиентам.

Вытесненные из дилерских ремонтных мастерских из-за высоких цен, потребители часто обращаются за текущим ремонтом в местные ремонтные мастерские. Большинство независимых авторемонтных мастерских взимают плату за рабочую силу в размере 80–90 долларов в час по сравнению со средним показателем в дилерских центрах в размере 85–125 долларов в час.

На рисунке выше показаны первые десять средних зарплат автомехаников по штатам. Нам нужно будет компенсировать эту разницу в цене, уточнив наши рекомендации по продуктам, надстройкам и извлекая выгоду из удобства предлагаемых нами услуг.

Предлагаемые услуги и преимущества для производителя и его клиентов
Пакет, который мы рассматриваем в качестве решения, будет включать в себя множество услуг по техническому обслуживанию транспортных средств. Идея состоит в том, чтобы добавить к существующему набору услуг, предлагаемых через приложение Car Connectivity App, такие функции, как уведомления об автомобиле и информационные панели. Мы можем использовать прогнозируемое время ожидания, созданное нашими моделями, чтобы предлагать персонализированные услуги, когда наши клиенты находятся дома. Мы планируем основывать логистику обслуживания фургонов и автомехаников на модели OEM-обслуживания на дому. Есть несколько причин, по которым это предложение понравится нашим клиентам, а также почему оно принесет пользу самой 99P Labs:

  • Потребителям не нужно беспокоиться об ожидании в ремонтных мастерских или о том, что их нужно забрать, если ремонт требует больших объемов. Вместе с прогнозируемым временем простоя и местоположением производитель может предложить услуги, которые соответствуют расчетным временным рамкам обслуживания и местоположению, оптимальному для технического обслуживания. Мы предполагаем, что клиенты оценят нулевое время ожидания в автосервисе.
  • 99P Labs может использовать модели для маркетинговой стратегии продвижения, чтобы привлечь клиентов и расширить клиентскую базу.
  • Используя данные автомобильных датчиков и историю обслуживания, производитель автомобилей может планировать предварительно диагностированный ремонт и заказывать запчасти заранее; это позволит потребителям избежать длительных сроков поставки необходимых деталей.
  • Эта услуга отлично подходит для повышения лояльности к бренду и отговаривает клиентов от ремонта в сторонних сервисных центрах. Это, в свою очередь, позволит производителю продвигать дополнительные продукты в магазине для покупки, когда клиент назначает встречу для обслуживания.
  • Ведя более подробную историю обслуживания автомобиля, 99P Labs может предложить более продвинутые услуги, которые потребуют от клиентов привезти свой автомобиль в дилерский центр — это может включать высадку клиентов и напоминания о расписании.
  • Команда рекомендует 99P Labs инвестировать в разработку приложения для интеграции доступных услуг и общей информации для справки потребителей или добавления в существующее приложение Car Connectivity App. Эту платформу также можно использовать для сезонных акций на шины и дополнительное оборудование.

Предлагая услуги, ориентированные на клиента, 99P Labs может открыть многочисленные возможности для размещения дополнительных продуктов и рекламы. Это приводит к ценовому аспекту бизнес-плана.

План ценообразования и возможности для бизнеса
Есть несколько гипотез относительно взимания платы за эти услуги по обслуживанию. Самый простой план включает в себя взимание платы с клиентов в каждом конкретном случае. Мы можем рекомендовать услугу через приложение Car Connectivity App, предлагать обзоры цен и позволять клиентам назначать встречи. Затем мы можем предложить скидки, основанные на истории вождения клиента, и простую систему баллов и вознаграждений, основанную на предыдущих покупках. Можно также сотрудничать со страховыми фирмами, чтобы обмениваться данными о схемах вождения, наблюдаемых автомобильными датчиками, что позволяет им соответствующим образом корректировать ставки. Безопасное вождение может быть вознаграждено скидками на плановое техническое обслуживание.

У нас также есть гипотеза предложения, включающая услуги по подписке. Это может быть сезонное техническое обслуживание, плановые проверки и замена масла и топлива. Клиенты могут получить скидки, подписавшись на годовые пакеты с различными объемами обслуживания, а не планируя разовые посещения. Мы можем использовать приложение для отправки напоминаний о предстоящих встречах и обновлениях статуса. Используя наши данные о времени простоя, мы можем заблаговременно планировать эти услуги, позволяя 99P Labs оптимизировать использование своей рабочей силы и доступность технических специалистов. Это также позволит сервисным центрам поддерживать более точную маржу по своим заказам на запчасти, поскольку у них будет подробный отчет о предыдущих и предстоящих работах по техническому обслуживанию.

Наконец, мы можем продвигать дополнительные внутренние продукты через приложение во время запланированных посещений в качестве надстроек. Это отпугивает клиентов от поиска более дешевых альтернатив у третьих лиц и обеспечивает более удобный для пользователя опыт, предоставляя универсальный магазин для всего, что им нужно.

Понимание данных

Набор телематических данных через портал 99P Labs
Несколько наборов данных доступны через портал данных 99P Labs. Наше внимание в этом проекте сосредоточено на наборе данных телематики, который состоит из более чем 25 миллионов строк и 287 признаков. Данные автомобильных датчиков собирались в режиме реального времени — когда происходит событие, соответствующие датчики будут выводить данные, а строка вставляется в набор данных. Не все датчики будут генерировать сигнал каждый раз, поэтому у нас остается довольно разреженный набор данных. Задача для нас заключалась в том, чтобы найти умные способы агрегирования каждой переменной функции для создания проницательных прогностических моделей. Из-за длительного времени загрузки мы получили подмножество из 25 миллионов строк из всего набора данных. В этом наборе данных мы обнаружили, что:

  • Всего 5129 уникальных автомобилей.
  • Многие столбцы содержат почти все нулевые значения или содержат сильно несбалансированные классы для категориальных данных.
  • Для каждой машины отсутствуют последовательные последовательности. Это может повлиять на точность предсказания местоположения.
  • Многие таблицы данных (группы данных датчиков) не окажут большого влияния на прогностические модели (например, СМИ, спутники). Мы решили исключить эти таблицы.
  • Некоторые функции, такие как средняя температура, могут быть важными для определения времени выдержки, но имеют слишком много пропущенных значений. Альтернативным подходом к этому является получение исторических данных о температуре.
  • Есть и другие интересные функции, которые мы можем исследовать в качестве целевой переменной в зависимости от варианта использования в бизнесе. Например, агрегированный признак из диагностической таблицы можно использовать для услуг по техническому обслуживанию автомобилей.

Данные представляют собой 2 недели событий автомобильных датчиков. Мы знаем, что любые модели, построенные на основе этих ограниченных временных рамок, не будут хорошо обобщаться на новые данные. Поведение вождения может измениться, точки интереса могут сместиться, а сезонность может не отражаться в данных. Тем не менее размер самих данных оказался проблемой для нашей команды, поскольку у нас был ограниченный опыт работы с большими данными.

Данные опроса
Нам не хватало уверенности в доступных наборах данных для полной поддержки нашего варианта использования в бизнесе (техническое обслуживание автомобилей), поэтому мы провели опрос, чтобы проверить наши идеи и понять модели поведения клиентов. Собранные результаты опроса также можно использовать в маркетинговых целях. Детали этого опроса описаны в следующем разделе.

Подготовка данных

Набор данных телематики
Из-за большого размера данных и ограниченного дискового пространства (ОЗУ) практически невозможно загрузить набор данных телематики с помощью широко используемой библиотеки Python, Pandas. В качестве альтернативы мы использовали Dask, библиотеку, основанную на Pandas, для работы с набором данных такого размера. В конце концов, мы использовали PySpark, интерфейс Python для известного Apache Spark, для работы с данными так, как это было удобно с вычислительными ресурсами, предоставленными 99P Labs. PySpark подходит для больших наборов данных благодаря своей способности распределять обработку данных на кластер компьютеров. Кроме того, его функция ленивой загрузки, которая частично загружает данные, позволяет нам обрабатывать данные без необходимости загружать весь набор данных в память.

В первой половине проекта мы сосредоточились на построении модели для прогнозирования времени ожидания и определении важных функций. Мы сгруппировали данные по идентификатору транспортного средства и последовательности, чтобы представить отдельные поездки, что позволяет нам значительно сократить количество строк в наборе данных. В среднем на одну машину приходится 43 поездки и с 5129 машинами, поэтому мы можем ожидать около 220 тысяч оставшихся строк. Мы извлекли функции, основанные на времени, функции местоположения и другие агрегированные функции, исходя из предположений, что они дадут высокую прогностическую силу. Таблица извлеченных ключевых функций приведена ниже для справки.

Кластеризация местоположений
Прямая передача широты и долготы в прогностические модели может не дать значимых данных для прогностических моделей. Мы следовали подходу команды Беркли, группируя места с помощью неконтролируемого обучения, но со значительным количеством дополнительных функций.

Наиболее распространенным алгоритмом для начала является K-средних, но выбор количества кластеров (K) будет затруднен без надлежащего знания предметной области, чтобы сделать обоснованное предположение. K-means — это метод кластеризации на основе расстояния, и мера будет сходиться к постоянному значению между любыми заданными примерами по мере увеличения количества признаков.

Мы определили, что лучшим подходом будет использование DBScan, который группирует точки данных на основе плотности точек данных и нечувствителен к выбросам. Еще одним преимуществом этого метода является то, что нам не нужно выбирать несколько кластеров. Однако необходимо настроить два гиперпараметра:

  • эпсилон: максимальное расстояние между двумя образцами, при котором один считается соседним с другим.
  • количество минимальных выборок: количество выборок (или общий вес) в окрестности для точки, которая считается базовой точкой.

Поэтому для полученных кластеров важен тщательный выбор гиперпараметров. Мы включили время пребывания, продолжительность поездки, выходные, описание времени, долготу и широту в качестве входных данных для алгоритма кластеризации. На выходе DBScan было 612 кластеров. Недостатком этого подхода является сложность интерпретации кластеров. В конечном итоге мы добавили кластеры к основному набору данных в качестве дополнительной функции, изученной в ходе этого неконтролируемого обучения.

Подтверждение опроса

Мы решили провести исследование потребителей с помощью опроса и задать основные вопросы, касающиеся транспортных средств и моделей обслуживания/ремонта. Мы хотели использовать этот опрос как способ проверки некоторых тенденций, которые мы наблюдали в наборе данных телематики, а также некоторых предположений, которые мы сделали для бизнес-плана. Мы распространили опрос среди наших собственных сетей, как профессиональных, так и личных. Всего в опросе приняло участие 190 человек, хотя только 162 человека завершили опрос полностью. Из 162 респондентов 154 заявили, что в их семье есть хотя бы одно транспортное средство. Этот пул из 154 респондентов и стал нашей выборкой для анализа. Ниже мы обсудим некоторые примечательные результаты анализа Tableau.

Демографические данные респондентов
Этот пул выборки был довольно равномерно распределен по разным демографическим группам, хотя больший вес был в возрастной категории от 25 до 34 лет (58% респондентов). Вероятно, это связано с тем, что члены нашей команды относятся к этой возрастной группе, и, следовательно, большинство наших сетей тоже. Хотя нам хотелось бы видеть более плавное распределение среди всех возрастов, мы в конечном итоге были удовлетворены результатами, поскольку в целом у нас был такой успешный уровень ответов, и эта возрастная группа также является нашим основным направлением для нашего целевого рынка. Кроме того, наши ответы были в основном распределены между теми, кто проживает в пригородных или городских районах (94%); очень немногие респонденты сказали, что они проживают в сельской местности. Это было выгодно для нас, так как мы хотим ориентироваться на тех, кто проживает в более густонаселенных районах.

Транспорт и техническое обслуживание
Как мы предполагали, большинство ремонтных работ, которые люди выполняли на своих транспортных средствах, считаются плановым техническим обслуживанием (например, замена масла, перестановка шин, осмотр транспортных средств и т. д.). Что касается этого планового технического обслуживания, респонденты справедливо разделились между тем, привозят ли они свой автомобиль в независимый гараж или к своему франчайзинговому дилеру. Это определенно то, что нам нужно будет учитывать при разработке нашего бизнес-плана, и это может считаться препятствием, поскольку нам нужно будет рассмотреть способы побудить людей вместо этого выбирать для обслуживания их франчайзинговый дилер — в данном случае наш партнер-производитель автомобилей.

Схема вождения
Мы задали респондентам вопросы о характере вождения, например, куда чаще всего они едут, а также как далеко они едут, чтобы добраться туда, и как долго они останавливаются. в этих местах. Эти вопросы послужили отличным способом проверить некоторые тенденции, которые мы наблюдали в наборах данных телематики. Например, почти 70% людей совершают в основном поездки на короткие расстояния (в радиусе 0–30 км). Некоторые из наиболее часто посещаемых мест включают продуктовый магазин, работу, рестораны и другие магазины/торговые центры, которые были выбраны примерно в 50% или более случаев. Кроме того, мы обычно видели, что когда люди путешествуют на большие расстояния, они с гораздо большей вероятностью остаются там на более длительный период времени. Это говорит о том, что пройденное расстояние и время пребывания положительно коррелируют.

Сценарии ценообразования
Последняя важная тема вопросов, которые мы задавали в ходе опроса, касалась нескольких различных сценариев ценообразования. Эти вопросы были заданы для того, чтобы понять, в каких видах услуг заинтересованы респонденты и на какой график оплаты они готовы подписаться.

В первом вопросе был представлен гипотетический сценарий проведения технического обслуживания в местном гараже владельца транспортного средства, которое включало 3 часа работы и стоило 200 долларов. Мы хотели знать, готовы ли они заплатить дополнительную плату за то, чтобы технический специалист приехал к ним домой или в другое удобное место, например, на работу, чтобы завершить там техническое обслуживание. Если они были заинтересованы в этой услуге, мы дополнительно спросили, какую дополнительную плату они готовы заплатить. Из 154 респондентов 59% заявили, что воспользуются этой услугой, а 44% заявили, что заплатят дополнительную плату в размере 50 долларов.

Во втором сценарии спрашивалось, будут ли они готовы платить ежегодный членский взнос в размере 200 долларов США, который будет покрывать регулярное плановое техническое обслуживание, такое как замена масла, перестановка шин, техосмотр автомобиля и т. д. Из 154 респондентов 76% заявили, что воспользуются этой услугой. и 50% заявили, что заплатят 200 долларов. Было интересно обнаружить, что если мы отфильтровали результаты, включив в них только лиц в возрасте от 18 до 44 лет, исключив тех, кто не принадлежит к нашему целевому рынку, результаты улучшились (как показано на изображении ниже). При рассмотрении первого сценария (слева), который предлагал пример надбавки с оплатой за услугу, количество тех, кто был заинтересован в услуге, увеличилось до 66%. Второй сценарий (справа), который предлагал раз в год членский взнос за плановое обслуживание, увеличился до 81% людей, заинтересованных в услуге. В конце дня мы узнали, что люди с гораздо большей вероятностью подпишутся на плату один раз в год, чем на график дополнительных платежей с оплатой за услугу.

Методология моделирования

Одной из наших основных задач было определить, какие функции в наборе данных телематики наиболее важны для определения времени простоя транспортного средства. В качестве отправной точки мы решили следовать модели времени ожидания, разработанной командой Беркли. Однако вместо того, чтобы использовать только данные о местоположении и переменную дневного света, мы включили столько дополнительных функций из набора данных, сколько у нас было после обработки данных. Среди этих 45 выбранных функций были кластеры местоположения, рассчитанные выше, переменные времени и продолжительности, переменные диагностических предупреждений и некоторые другие. Мы выполнили многоклассовую классификацию, разделив целевую переменную (время ожидания) на три группы, определенные в существующей модели времени ожидания: 0–3 часа, 3–6 часов и 6+ часов. Стоит признать, что, хотя интуиция, стоящая за определением целевых классов таким образом (предыдущей командой), была нам неясна, мы решили продвинуться вперед с этим решением, чтобы оно послужило первоначальным эталоном для сравнения наших собственные модели. Мы оценили как линейную классификацию, так и древовидные методы, в частности, машины опорных векторов, K-ближайших соседей, случайный лес и экстремальное повышение градиента.

Линейные модели и классификаторы на основе дерева
Ссылаясь на инфографику ниже, мы сосредоточили свое внимание на пространстве классификации и протестировали различные классификаторы на наборе данных. Линейные модели, как правило, предпочтительнее при работе с наборами данных, содержащими меньше наблюдений, тогда как древовидные методы обладают высокой масштабируемостью и хорошо работают с очень большими наборами данных. В то время как исходный набор данных состоял из 25 миллионов строк, наш результирующий набор данных после очистки и обработки включал только 85 тысяч строк. В результате мы решили оценить в нашем анализе как линейные, так и древовидные методы.

Такие модели, как классификаторы опорных векторов (SVC) и K-ближайших соседей (KNN), являются линейными разделителями в том смысле, что они определяют граничную линию или гиперплоскость для различия между классами. Поскольку проблема, которую мы определили, включает в себя более двух различных классов, наша методология должна позволять нам отображать данные в более высоком измерении. Хотя не все линейные классификаторы способны фиксировать нелинейные отношения таким образом, KNN делает это изначально, в то время как SVC достигает этого, вводя функцию ядра, что делает их обоих предпочтительными для наших целей. Кроме того, линейные классификаторы часто выбирают из-за их интерпретируемости из-за наличия коэффициентов модели.

Случайные леса (RF) и экстремальные усилители градиента (XGB) являются примерами древовидных моделей. Эти модели очень надежны и могут хорошо отображать нелинейные отношения. В дополнение к этому, они чрезвычайно эффективны при изучении сложных взаимосвязей, существующих в многомерных данных. Цена этого заключается в том, что их сложнее интерпретировать, и они могут легко соответствовать данным.

Оценка модели

Классификация K-ближайших соседей
Мы обучили классификатор K-ближайших соседей, который пытается классифицировать тестовые данные на основе показателей расстояния, в частности k-ближайших точек к каждой контрольной точке. Чтобы определить оптимальное значение k для максимальной точности, мы сначала оценили широкий диапазон значений с интервалом 5, чтобы сузить наш поиск, прежде чем оценивать модель на более детальном уровне, чтобы найти абсолютное лучшее значение k. Значение k, обеспечивающее наилучшую модель, равно k=47 с точностью 64,0%.

Классификация опорных векторов
Хотя SVC часто эффективны в многомерных пространствах, их сложно настроить на оптимальные гиперпараметры. В попытке обойти это мы выполнили поиск по сетке в пространстве гиперпараметров для модели классификации опорных векторов. Оптимальная модель использовала радиальную базисную функцию (rbf) для функции ядра. Это дало окончательную оценку точности 62,4%.

Классификация случайного леса
Сначала мы запустили наивную модель случайного леса, используя гиперпараметры по умолчанию, предоставленные пакетом Scikit-Learn. Это позволило достичь начальной точности 64,1%. После настройки модели на оптимальные гиперпараметры с помощью RandomizedSearchCV точность модели увеличилась до 77%.

Классификация XGBoost (лучшая модель)
Наилучшие результаты были достигнуты при использовании eXtreme Gradient Boosting. XGBoosting — это классификатор дерева решений, в котором используется алгоритм градиентного спуска — итеративный процесс, используемый для минимизации потерь. Это модель, которая пытается учиться на ходу, исправляя прошлые ошибки, чтобы улучшить свою работу. При использовании для задач классификации методы XGBoosting часто позволяют достичь высокой точности и низкого смещения при малом времени вычислений. Мы смогли подтвердить эту гипотезу с точностью теста 79,8%, что на 2,2% лучше, чем в предыдущей модели классификации времени задержки с тремя классами.

Важность функций с помощью SHAP
Хотя наши древовидные модели значительно превзошли линейные модели, эти методы страдают от того, что они являются черными ящиками, что затрудняет их объяснение и интерпретацию. Чтобы обойти этот недостаток, мы использовали Shapley Additive exPlanations, иначе известную как SHAP, для определения важности функции. Концепция SHAP основана на теории игр и машинном обучении, используя результаты и функции модели в качестве ее игры и игроков, чтобы количественно оценить вклад, который каждая функция вносит в прогноз, сделанный моделью (Источник ). Эта методология ориентирована на локальную интерпретируемость, что означает, что она наблюдает за результатами модели на уровне каждого наблюдения. Агрегирование этих значений позволяет нам оценить значимость признаков на различных уровнях детализации.

На уровне полного набора данных значения Шепли предполагают наличие ряда взаимно значимых особенностей между моделями XGBoost и Random Forest. В частности, переменные местоположения, такие как кластеры, предсказанные DBScan, и широта/долгота, оказывают наибольшее влияние на время задержки.

Детализация до одного целевого класса позволяет нам более подробно рассмотреть важность функции. Следующую визуализацию можно прочитать следующим образом:

  • Порядок. Переменные перечислены в порядке значимости.
  • Разброс. Точки справа от оси Y — это наблюдения, которые представляют более высокий прогноз. В этом случае более высокие значения SHAP представляют классификацию в диапазоне 0–3 часа.
  • Цвет. Красные точки указывают на более высокое исходное значение переменной, а синие точки — на более низкое исходное значение.
  • Корреляция.Если спред для переменной отмечен красным справа от оси Y, переменная положительно коррелирует с целевой переменной; аналогично, если переменная синего цвета справа от оси Y и красного цвета слева, переменная отрицательно коррелирует с целевой переменной.

Первоначальные выводы при наблюдении за важностью функций для целевого класса 0–3 часа времени задержки:

  • Кластеры местоположений — самая важная переменная.
  • Продолжительность поездки — еще одна важная переменная, подтверждающая нашу гипотезу о том, что чем больше продолжительность поездки в пути, тем дольше будет время пребывания в конечном пункте назначения.
  • Чем выше давление в шинах автомобиля, тем вероятнее, что время простоя будет составлять от 0 до 3 часов.
  • Если время суток раннее (с 5 до 8 утра), время задержки вряд ли будет между 0–3 часами.

Недостатки выбранных сегментов времени выдержки
Наша наиболее эффективная модель XGB показала отличные результаты с точки зрения общей точности тестирования. Однако более глубокое изучение результатов быстро показало, что эта модель не была идеальной. Распределение нашей целевой переменной показывает, что у подавляющего большинства наблюдений было короткое время пребывания, от 0 до 3 часов, тогда как автомобили, которые находились в течение 3–6 часов, составляли мизерную часть набора данных. Как и ожидалось при дисбалансе классов, матрица путаницы для этой модели XGB показывает, что достигнутая высокая точность в основном связана с тем фактом, что наша модель правильно предсказала наблюдения в классе 0–3 часа.

Заключение и следующие шаги

Во второй половине нашего проекта мы намерены расширить проделанную работу, а также изучить дополнительный вариант использования набора данных телематики. Одной из наших основных целей будет проведение обширного анализа режимов отказа наших бизнес-моделей, чтобы понять влияние неправильного прогнозирования времени ожидания и местоположения. Это позволит нам реализовать надежный план смягчения последствий, чтобы свести к минимуму риск как для наших клиентов, так и для потребителей, использующих эти услуги. Мы также стремимся расширить нашу разработку функций, чтобы имитировать входные данные клиентов о времени ожидания и исследовать различные периоды времени для прогнозирования времени ожидания. Наконец, мы планируем разработать структуру проверки, чтобы успешно реализовать как наши модели, так и наши бизнес-планы в реальном мире, и изучить связанные с этим проблемы.

Благодарности

Мы хотим поблагодарить нашего консультанта, Неду Мирзаян, за то, что она способствовала гладкому и приятному опыту работы над проектом, а также спонсоров нашего проекта, Раджива Чхаджера и Тони Фонтану из 99P Labs, за поддержку и руководство на этом пути.