Введение и предыстория

За последние десятилетия значительно увеличилось количество смертельных случаев и инвалидности в результате дорожно-транспортных происшествий, и это становится серьезной проблемой общественного здравоохранения. Национальное управление безопасности дорожного движения (NHTSA) сообщает, что в 2019 году в дорожно-транспортных происшествиях погибло 36 096 человек. Этому способствует несколько причин. Доступ к информации о дорожных обстоятельствах и периферийных угрозах может помочь водителям оценить текущую дорожную ситуацию и принять статистически более безопасные решения, связанные с вождением. Эти факторы могут включать ненастную погоду, характеристики дороги и даже время суток.

В какой степени факторы окружающей среды играют роль в возникновении/тяжести автомобильных аварий? Какие конкретные внешние факторы среди дорожных обстоятельств/периферийных угроз указывают на более высокую тяжесть аварии.

В этом блоге я расскажу о простом, но эффективном способе прогнозирования серьезности возможных дорожно-транспортных происшествий путем выделения и анализа данных, связанных с погодой. Для этого я использовал классификацию данных.

Framework — машинное обучение и классификация данных

  • Машинное обучение: изучение компьютерных алгоритмов, которые автоматически улучшаются благодаря опыту и использованию данных.
  • Классификация данных в науке о данных: процесс прогнозирования класса заданных точек данных. Классификационное прогнозное моделирование — это задача аппроксимации функции отображения (f) от входных переменных (x) до дискретных выходных переменных (y).
  • K-ближайших соседей (KNN):часто используемый метод непараметрической классификации для классификации и регрессии. Я использовал библиотеку sklearnpython, которая находит расстояние между запросом и существующими записями в пуле соседей (определяется значением k). Наиболее часто встречающаяся метка в пуле соседей будет определять классификацию запроса.

  • Ленивые ученики: просто сохраните данные обучения и подождите, пока не появятся данные тестирования. Когда это происходит, классификация проводится на основе наиболее связанных данных в сохраненных обучающих данных. Пример: КНН.
  • Оптимальное значение k: уменьшает влияние шума на классификацию данных и делает границы между классами менее четкими. Этот метод локтя используется для выбора оптимального количества кластеров для кластеризации KNN.
  • Значение значения k. Параметр k определяет количество ближайших соседей, которые будут учитываться в процессе голосования. Большие значения k указывают на то, что отображение может быть более гладким, чем с меньшими значениями k.

Этап 1. Импорт, нормализация и визуализация необработанных данных

Я импортировал набор данных под названием Набор данных о дорожно-транспортных происшествиях по всей стране (см. источник данных в разделе Ссылки*), предоставленный Корнелльскому университету независимыми исследователями и содержащий данные о дорожно-транспортных происшествиях за февраль 2016 г. - Декабрь 2020 г. с указанием рейтингов серьезности. Эти оценки серьезности варьируются от 2 до 4 (или от самой низкой до самой высокой степени серьезности).

Этот набор данных содержит в общей сложности 4,6 миллиона записей с 49 функциями. Я решил взглянуть на данные, связанные с погодой, в частности, 7 характеристик: Температура (OF), Wind_Chill (OF), Влажность (%), Давление (in), Видимость (mi), Wind_Speed ​​(миль/ч) и Осадки (в).

После обработки данных я построил данные о погоде с помощью парного графика морского происхождения, чтобы визуализировать статистические отношения между функциями (особенно серьезностью).

Фаза 2: Разработка алгоритма определения оптимальных характеристик погоды для прогнозирования

Имея семь различных характеристик погоды, я хотел определить оптимальную комбинацию трех характеристик, которая дала бы максимальную точность прогноза. Другими словами, я разработал алгоритм для определения кортежа признаков с максимальной точностью. Для этого я разработал наборы из n # признаков для 7Cn числа комбинаций погоды. Например, если бы были сделаны комбинации из трех признаков, то было бы 7C3 = 35 возможных комбинаций. Далее я повторил эти комбинации и разработал модель классификатора KNN для каждой из комбинаций. Это включало определение оптимального значения K (параметра, обеспечивающего наибольшую точность) для каждой комбинации.

Мой алгоритм определил три оптимальные характеристики погоды, которые наиболее характерны для серьезности аварии: холод от ветра, осадки и влажность. Оптимальное значение k для модели этого кортежа равно 11, а максимальная точность для 75% обучающих данных составляет 0,8554.

Фаза 3: тестирование и проверка результатов алгоритма KNN

Наконец, мне нужно было проверить разработанную модель с использованием данных о погоде за 2018 и 2019 годы и настроить классификатор по своему усмотрению. Для этого я проверил точность классификатора в прогнозировании серьезности. После обучения моей модели с данными за 2017 год (этап 2) я проверил модель с данными за 2018 и 2019 годы (этап 3). Я провел 50 испытаний со случайным образом сгенерированными 25% данных за каждый год, всего 100 испытаний в наборе проверочных данных. Данные о погоде за 2018 год показали точность 88,976 %. Данные о погоде за 2019 год показали точность 90,446 %.

Общий статистический анализ

Дальнейшее исследование показало, что отсутствует существенная корреляция между упомянутыми тремя главными параметрами — холодом от ветра, осадками и влажностью. Это отсутствие значительной корреляции указывает на то, что влияние функций на модель не будет одинаковым.

Поскольку температура и холод от ветра были линейно коррелированы, они оба оказывают одинаковое влияние на модель. Кроме того, при объединении в комбинации модели с температурой и охлаждением ветром действительно давали самую низкую точность.

Выводы и будущие приложения

Дорожные условия и внешние раздражители оказывают разрушительное влияние на исход дорожно-транспортного происшествия. Как показало мое исследование, характеристики, связанные с погодой в записях/данных об авариях, могут предсказывать серьезность данного запроса с точностью до 90 %, используя KNN. модель. Из всех факторов мой алгоритм и классификация модели KNN определили 3 оптимальных фактора погоды, которые имеют более высокую корреляцию с тяжестью аварии примерно на 90 % точности в виде холодного ветра, осадков и влажности.

Хотя разработанная модель KNN оказалась относительно успешным средством определения вероятности возникновения автомобильных аварий, она служит доказательством концепции нейросетевых и регрессионно-ориентированных методов машинного обучения. Поскольку он непараметрический, он может быть не в состоянии предсказать нюансы более продвинутых методов моделирования.

Необходимость более активных профилактических мер очевидна. Подобно тому, как карты Google предоставляют визуальные прогнозы для зон с интенсивным движением, чтобы информировать водителей, аналогичный метод можно использовать для предоставления предупреждений о вождении. безопасность и потенциальные опасности.

Посмотрите мой код на моем GitHub!

использованная литература

  1. Кэри, Рэйчел Н. и Киран М. Сарма. Влияние перехода на летнее время на риск дорожно-транспортного происшествия: систематический обзор. NCBI, Национальный институт здравоохранения, 2 июля 2017 г., www.ncbi.nlm.nih.gov/pmc/articles/PMC5734262/.
  2. Лесковар, Карло. «На пути к машинному обучению — K ближайший сосед (KNN)». Medium, На пути к науке о данных, 2 октября 2020 г., directiondatascience.com/towards-machine-learning-k-nearest-neighbour-knn-7d5eaf53d36c.
  3. * Мусави, Собхан, Мохаммад Хоссейн Самаватян, Шринивасан Партасарати, Раду Теодореску и Раджив Рамнатх. «Прогнозирование риска несчастных случаев на основе разнородных разреженных данных: новый набор данных и идеи». В материалах 27-й Международной конференции ACM SIGSPATIAL по достижениям в области географических информационных систем, ACM, 2019.
  4. * Мусави, Собхан, Мохаммад Хоссейн Самаватян, Шринивасан Партасарати и Раджив Рамнатх. «Набор данных о дорожно-транспортных происшествиях по всей стране», 2019 г.
  5. * Мусави, Собхан. Аварии в США (4,2 миллиона записей). Kaggle, 28 января 2021 г., www.kaggle.com/sobhanmoosavi/us-accidents.
  6. Нантасенамат, Чанин. «Как построить модель регрессии в Python». Medium, На пути к науке о данных, 16 августа 2020 г., directiondatascience.com/how-to-build-a-regression-model-in-python-9a10685c7f09.