Анализ функций и машинное обучение для безопасности дорожного движения

Использование функций для определения небезопасных и опасных дорог и, таким образом, предотвращения дорожно-транспортных происшествий и травм.

Эта статья изначально была опубликована в блоге Омдены.

Среди других статей, описывающих интересные методы моделирования для присвоения дорогам «оценки безопасности» и определения самых безопасных дорог. Таким образом уменьшите количество дорожно-транспортных происшествий и спасите жизни.

Прочтите о других методологиях, используемых в проекте:

Обнаружение объектов для предотвращения дорожных аварий и спасения жизней

Использование сверточных нейронных сетей для повышения безопасности дорожного движения и спасения жизней

Постановка задачи:

В рамках проекта Omdena с iRap важным шагом было провести анализ характеристик, чтобы определить, какие из 66 дорожных особенностей iRap имеют наибольшее влияние на безопасность дорожного движения. Команда Омдены использовала различные статистические методы и регрессионные модели для определения важности функций. Основное внимание уделялось разработке методов, которые могли бы помочь iRap выявлять небезопасные и опасные дороги и, таким образом, помогать предотвращать дорожно-транспортные происшествия и травмы. В рамках своей деятельности по выявлению небезопасных дорог iRap использует звездную систему оценки, при которой наиболее опасные дороги получают оценку одна звезда, а самые безопасные дороги получают оценку пять звезд. Помимо присвоения звездных оценок пользователям дорог, которые водят автомобили, iRap также присваивает звездные рейтинги трем другим типам участников дорожного движения: мотоциклистам, пешеходам и велосипедистам.

Причины для анализа характеристик:

Для расчета звездного рейтинга ряд различных атрибутов дороги вводится в формулу, которая затем дает звездный рейтинг для каждого из четырех различных типов участников дорожного движения. В рамках проекта будет разработка моделей машинного обучения для прогнозирования четырех типов звездного рейтинга при задании набора атрибутов дороги в качестве входных данных. Было сочтено, что было бы неплохо провести процесс анализа характеристик, чтобы определить, какой из 66 дорожных характеристик, которые использует iRap в настоящее время, оказывают наибольшее влияние на каждый тип звездного рейтинга.

Методология:

Обзор различных используемых методов:

Первоначально использовались два статистических метода для определения порядка расположения элементов дороги на основе воздействия для каждого типа звездного рейтинга. По мере развития проекта и разработки моделей машинного обучения стало очевидно, что существует три типа регрессионных моделей, которые дают наилучшую производительность при прогнозировании звездного рейтинга дороги, а именно: регрессор случайного леса, экстремальное усиление градиента (XGBoost). регрессор и регрессор категориального повышения (Catboost). После того, как эти три модели были обучены для каждого типа звездности / участника дорожного движения, можно было извлечь наиболее важные входные параметры (атрибуты дороги) из каждой модели.

Как методы использовались вместе:

Таким образом, наконец, каждый тип звездного рейтинга: автомобили, мотоциклы, пешеходы и велосипедисты, у нас есть два статистических метода и три регрессионных модели машинного обучения, которые могут определить важность всех характеристик дороги. Затем эти пять различных методов были объединены, чтобы дать общий рейтинг характеристик дороги для каждого типа звездного рейтинга, а также при одновременном рассмотрении всех четырех типов звездного рейтинга.

Статистические методы:

Типы используемых статистических методов:

Во-первых, мы исследуем методологию, лежащую в основе двух статистических методов. Мы решили, что лучшими статистическими методами для определения наиболее важных характеристик являются анализ хи-квадрат и оценка взаимной информации, которые позволяют определить наиболее важные характеристики по каждому типу звездного рейтинга.

Выбран тип кодировки:

Поскольку iRap использует большое количество категориальных переменных для различных характеристик дороги, не так просто применить статистические методы к входным характеристикам дороги, поскольку это дало бы неточные результаты. Во-первых, необходимо выполнить одно горячее кодирование для всех категориальных входных значений. После того, как однократное кодирование было применено ко всем входным объектам дороги, чем для каждой из переменных с горячим кодированием, можно рассчитать значение хи-квадрат и показатель взаимной информации.

Применение статистических методов к объектам дороги:

Затем переменные с горячим кодированием группируются в соответствии с исходной входной характеристикой, а затем берется среднее значение, чтобы дать репрезентативное значение хи-квадрат и взаимную информационную оценку для каждой входной категориальной характеристики дороги. Например, если у вас есть входная кривизна, которая может принимать значения 1,2,3 и 4, применяется горячее кодирование для преобразования столбца кривизны в 4 столбца: кривизна = 1, кривизна = 2, кривизна = 3 и кривизна = 4. Затем значения хи-квадрат и оценки взаимной информации вычисляются для каждого столбца с горячим кодированием и затем снова усредняются, чтобы получить репрезентативные оценки кривизны по отношению к определенной звездной оценке.

Результаты статистических методов:

Этот процесс применяется ко всем категориальным входным переменным сразу, а затем результаты упорядочиваются с оценками в порядке убывания. Функции в верхней части списка имеют наибольшее влияние на определенный тип звездного рейтинга. Теперь этот процесс повторяется для четырех различных типов участников дорожного движения / звездного рейтинга, и в итоге мы получаем 8 упорядоченных списков важности характеристик (рейтинг хи-квадрат и рейтинг взаимной информации для звездного рейтинга автомобилей, мотоциклов, пешеходов и т. Д.). велосипеды).

Методы машинного обучения:

Выбор моделей машинного обучения для использования:

Затем мы переходим к методологии трех методов машинного обучения. После очистки и предварительной обработки выборочных данных звездных оценок их можно будет использовать в различных моделях машинного обучения. Первым шагом было использование пакета на основе Auto-ML, чтобы увидеть, какие модели регрессии дают наилучшие прогнозы звездного рейтинга для каждого из четырех различных типов звездных рейтингов.

Наиболее эффективные регрессионные модели.

Мы увидели, что последовательно были три модели, которые, казалось, давали лучшую производительность (Случайный лес, XGBoost, Catboost), и поэтому эти три модели были реализованы в Sk-learn и дополнительно оптимизированы путем настройки гиперпараметров модели и затем, наконец, с использованием методов ансамбля для объединения три разные модели для дальнейшего повышения точности. На этом этапе нас интересуют только отдельные модели, а не ансамблевая модель, созданная позже, поскольку мы смотрим в первую очередь на важность функций.

Получение наиболее важных функций:

Для каждого из методов регрессии машинного обучения (случайный лес, XGBoost, Catboost) после того, как модель была обучена на обучающих данных, возможно, что мы сможем извлечь из модели входные функции, которые оказывают наиболее значительное влияние на цель регрессионных моделей (т. е. различные типы звездного рейтинга). Например, для регрессора случайного леса Sk-learn после обучения модели мы можем вызвать функцию «feature_importances_» из модели и получить список входных функций, упорядоченных по важности.

Таким образом, для каждого из четырех типов звездного рейтинга мы получаем три различные обученные модели, и каждая обученная модель дает нам список наиболее важных характеристик.

Результаты:

Теперь мы выполнили как статистические методы, так и методы машинного обучения для ранжирования важности характеристик, и для каждого типа звездного рейтинга (автомобиль, мотоцикл, пешеход и велосипед) у нас есть пять различных списков, в которых ранжируется важность характеристик. Затем желательно каким-либо образом объединить списки, чтобы дать общий рейтинг характеристик для каждого типа звездного рейтинга. Для этого использовалась система баллов, поскольку она обеспечивает простой метод объединения списков, даже если каждый список ранжируется по разным показателям.

Присвоение баллов дорожным объектам:

Мы берем 30 самых важных функций из каждого списка и даем им произвольное значение в баллах в зависимости от того, где объект дороги занимает место в списке (при этом наиболее важные функции получают 30 баллов, а наименее важные 30 функций получают только одну точку. ). Затем для каждого списка мы устанавливаем объекты дороги в качестве индекса во фрейме данных и берем соответствующие значения точек. Для каждого звездного рейтинга пять фреймов данных объединяются по значениям индекса, которые соответствуют определенным дорожным характеристикам, а баллы суммируются по мере объединения пяти списков.

Комбинированные значения баллов:

Наконец, у нас есть единый список функций и значений баллов для каждого типа звездного рейтинга, где более высокие баллы означают более высокую важность функции в большем количестве списков. Четыре списка важности объектов затем снова используются для объединения объектов и суммирования баллов для получения пятого списка, который дает важность объекта дороги при одновременном рассмотрении всех четырех типов участников дорожного движения. Затем пять списков переупорядочиваются по количеству баллов в порядке убывания, чтобы дать характеристики дороги в порядке важности при прогнозировании звездных оценок (безопасность дорожного движения) для автомобилей, мотоциклов, пешеходов и велосипедов и, кроме того, при рассмотрении звездных оценок для всех четырех типов участников дорожного движения. .

Теперь, когда стало известно о важности особенностей дороги, это позволило другим командам в рамках проекта сосредоточить свои усилия на разработке моделей машинного обучения для извлечения определенных характеристик дороги из аэрофотоснимков или данных наземных видов улиц, которые дадут наибольшее повышение звездного рейтинга. предсказательная сила.

Вывод

В заключение, найдя особенности дороги, которые имеют наибольшее влияние на различные типы звездного рейтинга, можно сосредоточить усилия на разработке методов машинного обучения для автоматического извлечения этих дорожных характеристик, а затем эти особенности могут быть введены в модели прогнозирования звездных рейтингов. Таким образом, наиболее точные прогнозы звездного рейтинга можно получить в рамках проекта, работая таким эффективным и целенаправленным образом.