Узнайте, как очистить результаты поисковой системы Yahoo с помощью R, используя пакет {rvest}
Введение
Веб-скрапинг — это процесс извлечения данных с веб-сайтов. Обычно это делается автоматически для получения больших объемов данных через различные веб-сайты без необходимости сбора данных вручную.
В предыдущем посте мы представили этот метод и проиллюстрировали его на странице Википедии. Несмотря на то, что существует множество сценариев использования парсинга веб-страниц, в этой статье мы ограничимся парсингом результатов поиска Yahoo с помощью R. Парсинг результатов поисковых систем может помочь вам в SEO-анализе, анализе конкурентов, исследовании ключевых слов и тенденциях. анализ и т.д.
Очистка результатов поисковой системы Yahoo с помощью R
После установки R и RStudio нам сначала необходимо загрузить необходимые пакеты, выполнив следующие команды: 1
# install.packages("rvest") # install.packages("jsonlite") # install.packages("purrr") library(rvest) library(jsonlite) library(purrr)
Пакет {rvest}
предназначен для очистки веб-страниц, пакет {jsonlite}
— для работы с данными JSON, а пакет {purrr}
— для работы с функциями и векторами.
Всегда лучше заранее решить, что именно мы будем парсить. В этом уроке мы собираемся получить результаты поиска с этого URL-адреса:
Мы собираемся извлечь следующие данные с этой страницы:
- Связь
- Заголовок
- Описание
Для этого мы определяем URL-адрес страницы результатов поиска Yahoo, которую мы хотим очистить. В данном случае мы ищем слово «пицца».
# URL of the Yahoo search results page url <- "https://search.yahoo.com/search?p=pizza"
Затем мы используем функцию read_html()
из пакета {rvest}
для чтения HTML-содержимого предоставленного URL-адреса:
# Read the HTML content of the page…