Соавторы: Пранав Джахагирдар, Цзяюн Ли, Хусюань Чжан, Цзянин Ван

Введение

В этом проекте моя команда создала модель прогнозирования цен Airbnb, чтобы найти оптимальную цену на жилье в Нью-Йорке, максимизировать прибыльность Airbnb и проверить, какие функции влияют на цену.

Несмотря на то, что Airbnb дебютировала на фондовом рынке как фирма по аренде жилья с рыночной стоимостью более 100 миллиардов долларов, сделав крупнейшее публичное первичное размещение акций в США в том году, с 2017 года у Airbnb был дефицит. Чтобы нарисовать план ценообразования Airbnb стратегии, следует уделить серьезное внимание точной оценке листинговой цены, максимизирующей прибыль. Основным источником дохода Airbnb являются сборы за услуги при бронировании, которые взимаются как с арендаторов, так и с хозяев. Целью этого проекта является поиск оптимальной цены, проверка функций, которые заставляют людей думать, что цена является разумной, и максимизация дохода за счет увеличения вероятности сдачи в аренду по оптимальной цене. Убедитесь, что цена соответствует максимальная стоимость дома, а также обращение к целевому рынку.

* Инструменты/библиотеки: R/tidyverse и решетка (визуализация), rpart (классификация), glmnet (Rigde & Lasso), randomForest (случайный лес)

*Набор данных: набор данных Airbnb

* Выполненный анализ: корреляция, регрессия, регрессия с взаимодействиями и регуляризацией и дерево регрессии

Подготовка и обработка данных

Наш набор данных состоит из 34 переменных и 27 489 наблюдений. Каждая строка означает уникальное размещение, а каждый столбец означает следующее:

В итоге,

1) Мы отказались от функций, не имеющих отношения к исследованию, таких как идентификатор листинга, название листинга и идентификатор хоста, который является идентификатором каждой строки.

2) Мы использовали однократное кодирование, чтобы преобразовать тип района и комнаты в последовательность 1 и 0, чтобы сделать их совместимыми с машиной.

3) Мы заменили значения NULL в количестве спален медианой всех оставшихся полных наблюдений, основанных на размещении и типе комнаты.

4) Мы преобразовали функции удобств, которые представляли собой разделенную запятыми строку всех удобств, предоставляемых в указанном свойстве, в отдельные столбцы и создали 45 фиктивных столбцов.

5) Кроме того, мы создали новый столбец для расчета общего количества удобств в этом списке.

6) Для целевой переменной мы проверили выбросы цены и удалили их, а вместо цены использовали логарифм цены.

Всего в нашем наборе данных было 27 444 наблюдения и 65 переменных.

Визуализация данных

1) Цена зависит от местоположения

Манхэттен имеет самую высокую среднюю цену, за ним следует Бруклин.

2) Взаимосвязь между количеством удобств и ценой

Поскольку размещение предоставляет больше удобств, цена будет расти.

3) Связь между типом номера и ценой

Все место и номер в отеле имеют более высокую цену, чем отдельная комната и общая комната.

Моделирование

Моя команда выбрала модели трех основных типов: линейная регрессия, регрессия с взаимодействием и древовидная модель (метод ансамбля). Мы оценили модели на основе оценки «MSE». Случайный лес продемонстрировал лучшую производительность модели при прогнозировании логарифма цены и хорошую интерпретируемость. Модель случайного леса показала самый низкий показатель MSE 0,14.

Согласно этой модели, на цену больше всего влияют следующие переменные: [1] тип комнаты [2] размещение [3] местоположение (долгота и широта) [4] спальни [5] host_total_listing_count [6] количество удобств [ 7] время присоединиться.

Заключение

Анализ моей команды поможет хозяевам и Airbnb максимизировать свои доходы.

Семь переменных, упомянутых выше, можно разделить на две категории: удобство (тип комнаты, размещение, расположение, спальни, количество удобств) и достоверность (host_total_listing_count, время подключения). Среди этих переменных только спальни и количество удобств являются функциями, в которые хозяева могут вносить изменения.

Поэтому мы хотим предложить хозяевам, жилье которых редко сдается в аренду, поставить больше кроватей, предоставить больше удобств и предложить оптимальную цену, чтобы максимизировать свой доход.

GitHub (код R): https://github.com/Jacob-KR/Project-using-R/blob/main/Airbnb%20Pricing%20Predictive%20Model.R