Ключевыми задачами данного проекта является определение:

I. Какие типы серьезных преступлений происходят и где они происходят?

II. Можно ли предсказать большой процент вариации цен на аренду Airbnb с доступными характеристиками листинга?

III. Имеет ли частота крупных преступлений, связанных с каждым объявлением (в радиусе ~ 5 км) за последний год, практическое значение для улучшения процентной вариации цен на аренду Airbnb, объясняемой доступными факторами?

Я начинаю с анализа Цели I, в частности, какие типы крупных преступлений происходят и где они происходят?

Я ожидаю, что воровство будет наиболее частым преступлением, а поджоги — наименее частым, а преступления будут распределяться по районам неравномерно. Я проверяю свою исходную позицию, исследуя: (1) Преступления по районам; (2) Преступления по группам правонарушений; и (3) Преступления по районам и группам правонарушений.

Результаты:

Судя по данным, большинство преступлений совершается в округах D4, B2 и A1, и большая часть преступлений относится к группе преступлений, связанных с воровством.

Далее я исследую Задачу II, в частности, можно ли предсказать большое количество колебаний цен Airbnb с доступными характеристиками листинга? Моя первоначальная позиция — «да», потому что списки включают многие характеристики, которые, по моему мнению, будут важны при определении цены (например, отзывы, район и тип аренды).

Я проверяю это, исследуя r в квадрате и скорректированное значение r в квадрате 4 популярных моделей оценки машинного обучения: (1) линейная регрессия, (2) регрессия хребта, (3) регрессия лассо и (4) градиентный спуск. (Подробности об используемых объяснительных переменных можно найти в моем Github-репозитории).

Линейная регрессия:

Оценка поезда r2: 0,68; Действительная оценка r2: 0,59; Оценка теста r2: 0,61
Оценка поезда adj_r2: 0,67; Действительная оценка adj_r2: 0,58; Оценка adj_r2 теста: 0,59

Регрессия хребта:

Оценка поезда r2: 0,64; Действительная оценка r2: 0,57; Оценка теста r2: 0,63
Оценка поезда adj_r2: 0,63; Действительная оценка adj_r2: 0,56; Оценка adj_r2 теста: 0,62

Лассо-регрессия:

Оценка поезда r2: 0,35; Действительная оценка r2: 0,29; Оценка теста r2: 0,32
Оценка поезда adj_r2: 0,33; Действительная оценка adj_r2: 0,26; Оценка adj_r2 теста: 0,30

Градиентный спуск:

Оценка теста r2: 0,55
Оценка теста adj_r2: 0,53

Результаты:

Основываясь на результатах регрессии, большая часть вариации может быть объяснена подмножеством листинговых характеристик. Модель гребневой регрессии смогла зафиксировать самые большие колебания в цене.

Наконец, я изучаю Задачу III, в частности, имеет ли практическое значение частота серьезных преступлений, связанных с каждым объявлением (в радиусе ~ 5 км) за последний год, для улучшения процентной вариации цен на аренду Airbnb, объясняемой доступными факторами?

Моя первоначальная позиция — да, поскольку частота крупных преступлений кажется ключевым фактором, определяющим цену аренды. Я проверяю это, проводя аналогичный анализ, как описано выше, с частотой серьезных преступлений для каждого списка.

Линейная регрессия:

Оценка поезда r2: 0,68; Действительная оценка r2: 0,59; Оценка теста r2: 0,61
Оценка поезда adj_r2: 0,67; Действительная оценка adj_r2: 0,58; Оценка adj_r2 теста: 0,59

Регрессия хребта:

Оценка поезда r2: 0,65; Действительная оценка r2: 0,58; Оценка теста r2: 0,63
Оценка поезда adj_r2: 0,63; Допустимая оценка adj_r2: 0,57; Оценка adj_r2 теста: 0,62

Лассо-регрессия:

Оценка поезда r2: 0,39; Действительная оценка r2: 0,32; Оценка теста r2: 0,35
Оценка поезда adj_r2: 0,37; Действительная оценка adj_r2: 0,30; Оценка adj_r2 теста: 0,3

Градиентный спуск:

Оценка теста r2: 0,53
Оценка теста adj_r2: 0,52

Результаты:

Частота преступлений в радиусе ~ 5 км от каждого объявления не имеет практического значения для улучшения процентной вариации цен на жилье Airbnb, объясняемой подмножеством характеристик листинга.

Это может быть связано с тем, что арендаторы не знают о частоте преступлений, связанных с каждым объявлением, выше того, что известно через ассоциации соседей.

Вывод:

Большинство преступлений происходит в округах D4, B2 и A1, а также в категории «Воровство». С помощью характеристик листинга можно предсказать большую часть вариации ~60% цен листинга. Количество крупных преступлений в непосредственной близости от каждого листинга не имеет практического значения для изменения цен листинга, прогнозируемого независимыми переменными.

использованная литература

  1. Набор данных Boston Crimes получен с сайта https://www.kaggle.com/AnalyzeBoston/crimes-in-boston, 12 сентября 2019 г.
  2. Набор данных Boston Airbnb получен с сайта https://www.kaggle.com/airbnb/boston, 14 сентября 2019 г.
  3. Правонарушения UCR получены из: https://ucr.fbi.gov/crime-in-the-u.s/2011/crime-in-the-u.s.-2011/offense-definitions, 14 сентября 2019 г.