Узнайте, как очистить результаты поисковой системы Yahoo с помощью R, используя пакет {rvest}

Введение

Веб-скрапинг — это процесс извлечения данных с веб-сайтов. Обычно это делается автоматически для получения больших объемов данных через различные веб-сайты без необходимости сбора данных вручную.

В предыдущем посте мы представили этот метод и проиллюстрировали его на странице Википедии. Несмотря на то, что существует множество сценариев использования парсинга веб-страниц, в этой статье мы ограничимся парсингом результатов поиска Yahoo с помощью R. Парсинг результатов поисковых систем может помочь вам в SEO-анализе, анализе конкурентов, исследовании ключевых слов и тенденциях. анализ и т.д.

Очистка результатов поисковой системы Yahoo с помощью R

После установки R и RStudio нам сначала необходимо загрузить необходимые пакеты, выполнив следующие команды: 1

# install.packages("rvest")
# install.packages("jsonlite")
# install.packages("purrr")
library(rvest)
library(jsonlite)
library(purrr)

Пакет {rvest} предназначен для очистки веб-страниц, пакет {jsonlite} — для работы с данными JSON, а пакет {purrr} — для работы с функциями и векторами.

Всегда лучше заранее решить, что именно мы будем парсить. В этом уроке мы собираемся получить результаты поиска с этого URL-адреса:

Мы собираемся извлечь следующие данные с этой страницы:

  • Связь
  • Заголовок
  • Описание

Для этого мы определяем URL-адрес страницы результатов поиска Yahoo, которую мы хотим очистить. В данном случае мы ищем слово «пицца».

# URL of the Yahoo search results page
url <- "https://search.yahoo.com/search?p=pizza"

Затем мы используем функцию read_html() из пакета {rvest} для чтения HTML-содержимого предоставленного URL-адреса:

# Read the HTML content of the page…