КОДЕКС

Создание веб-парсера Newegg (часть 1)

Скачивание нужных инструментов для работы

Что такое парсер?

Мы можем писать программы, позволяющие читать определенные типы файлов. Они могут включать текст (.txt), значения, разделенные запятыми (.csv), и файлы изображений (.jpg, .png, .bmp) (и это лишь некоторые из них). Однако веб-парсер - это приложение, которое считывает HTML-код с веб-сайта. Библиотеки синтаксического анализа HTML можно использовать для элегантного взаимодействия с исходным кодом веб-сайта.

Описание построенного мной скребка

Созданный мной парсер основан на обучающем видео с YouTube (ссылка на него будет внизу статьи). Видео посвящено созданию парсера для получения информации с веб-сайта Newegg. Такая информация, как торговая марка, название продукта и доставка, извлекается с видеокарт. Я также хотел добавить возможность очищать информацию о ценах с каждой видеокарты. Это небольшое изменение привело к существенным изменениям исходного кода. Получение информации о ценах вынудило меня учитывать товары, которых нет в наличии. Мне также пришлось добавить код для учетной записи для рекламы. Если бы я не проверял рекламу, мой скребок не мог получать информацию. Я расскажу более подробно об этих выпусках в следующей части этой серии.

Инструменты, необходимые для этой сборки

  • Python
  • Пип
  • Красивый суп

Python - это язык программирования высокого уровня (это просто означает, что он имеет англоязычный синтаксис). То, что вы хотите построить, зависит от языка, который вы используете. Есть языки, которые используются для создания определенных вещей, и другие, которые можно использовать для создания самых разных вещей. Кажется, что количество доступных на выбор библиотек веб-парсинга на основе Python бесконечно. Таким образом, Python является предпочтительным языком для создания парсера.

Pip - это менеджер пакетов Python. В языках программирования есть множество стандартных библиотек, которые составляют функции, связанные с языком в целом. Стандартные библиотеки - это те, к которым вы можете получить доступ напрямую (используя какое-либо ключевое слово для включения библиотеки в ваш проект) и косвенно (путем включения библиотеки в ваш проект по умолчанию). Библиотеки, которые не являются частью основного языка, необходимо загружать отдельно, чтобы вы могли использовать их в своем проекте. Pip позволяет нам загружать внешние библиотеки, которые не являются локальными для языка программирования Python.

Beautiful Soup - это библиотека на основе Python, используемая для парсинга веб-страниц (более формально она называется парсером HTML). Существует множество библиотек, которые можно использовать для парсинга веб-страниц, однако, похоже, существует множество источников, которые используют Beautiful Soup. Если вы хотите использовать другую библиотеку, такую ​​как Selenium или Scrapy, мы будем рады.

Скачивание Python

Скачайте последнюю версию Python. Если вы работаете на компьютере с Windows, вам нужно будет добавить расположение основных скриптов Python в переменную среды пути. Команды, которые необходимо выполнить из командной строки, не будут работать, если этого не сделать.

Скачивание Pip

Сохраните get-pip.py на свой компьютер. Используйте терминал, чтобы установить в своем каталоге тот, который содержит файл get-pip.py. Как только это будет сделано, введите эту команду в свой терминал:

py get-pip.py

Строка выше выполнит код из файла и установит pip на ваш компьютер. Вы также можете написать «python» вместо «py», если приведенная выше строка вам не подходит. Моя система позволяет мне выполнять код Python, записывая «py» перед предполагаемым файлом. Что бы ни работало с вашей системой, соглашайтесь.

Скачивание Beautiful Soup

Напишите эту строку кода в свой терминал, чтобы установить Beautiful Soup:

pip install bs4

Вы также можете ознакомиться с документацией Beautiful Soup для получения дополнительной информации по установке. Когда вы находитесь на сайте, прокрутите вниз до Установка Beautiful Soup.

использованная литература

Додзё Data Science. (2017, 6 января). Введение в парсинг веб-страниц с помощью Python и Beautiful Soup. [YouTube видео]. Додзё Data Science. Получено с https://www.youtube.com/watch?v=XQgXKtPSzUI&t=205s