Как легко автоматизировать процесс парсинга веб-страниц с помощью Listly, удобного для начинающих инструмента без кода.
Сбор данных для вашего проекта может быть утомительной задачей, которая занимает долгие часы вашего дня, но всегда есть лучший способ сделать это — просмотр веб-страниц. Для тех из вас, кто не знаком с веб-скрапингом, это также называется скрапинг данных, то есть извлечение данных с веб-сайтов.
Но если вы когда-либо пытались собрать данные с веб-сайтов, вы, возможно, знаете, что есть несколько вещей, которые могут пойти не так. Веб-сайт может заблокировать ваш IP-адрес или полностью изменить свою структуру. И все это может произойти без предупреждения.
С появлением удивительных инструментов для веб-скрейпинга без кода вам обязательно стоит воспользоваться такими инструментами для веб-скрейпинга, как Listly.
Listly — это простой в использовании инструмент для веб-скрейпинга без кода с очень доступной моделью ценообразования. (Тем не менее, любой может использовать Listly бесплатно!)
Это расширение для браузера Chrome, которое вы можете настроить для автоматического сбора данных. Сервис основан на щелчке и захвате, поэтому он идеально подходит для начинающих программистов.
Вам нужна только веб-страница, с которой вы хотите извлечь данные (вы можете контролировать, с какой части страницы) и установленное расширение Listly. Процесс полностью автоматизирован, и вы быстро получите результат либо в форме Excel, либо в электронной таблице Google.
Это пошаговое руководство поможет вам автоматизировать процесс очистки данных с помощью службы сценариев действий Listly.
Шаг 1. Нажмите «СПИСОК ЦЕЛЫХ», чтобы выполнить очистку веб-сайта.
Нажмите СПИСОК ЦЕЛЫХ и очистите информацию об изображении, как показано ниже.
Как только вы нажмете кнопку, Listly перенесет вас на страницу результатов с информацией, извлеченной с веб-сайта. Хм… это не обычно, но некоторые веб-сайты делают свою информацию полностью невидимой, чтобы никто не мог ее очистить, как в этом случае.
Не беспокойся! Listly предоставляет услуги ACTION SCRIPT для тех, кто застрял в веб-скрейпинге, по запросу.
Шаг 2: Скопируйте и вставьте сценарий действия в настройки
Перейдите в раздел DATABOARD и щелкните значок НАСТРОЙКИ.
Скопируйте сценарий действия — он предназначен для очистки веб-сайта Loewe, испанского дома моды класса люкс, специализирующегося на изделиях из кожи и одежде — ниже и вставьте его в раздел СЦЕНАРИЙ ДЕЙСТВИЯ — готово!
listly_action_end = false; let sleep = (t) => { return new Promise(resolve=>setTimeout(resolve,t)); } async function custom_action() { // CUSTOM_ACTION — START // Replace the Thumbnail Blob src with link src thumbnail_elements = document.querySelectorAll(“#js-image-container > div.swiper-container.js-pdp-images-swiper > div.swiper-wrapper > div > picture”); for (let te of thumbnail_elements) { img_element = te.querySelector(“img”); link_element = te.querySelector(“link”); if (img_element == null || link_element == null) { break } else { img_element.src = link_element.href; } await sleep(200); } // CUSTOM_ACTION — END } async function process() { console.log(“process function started”); await custom_action(); console.log(“process function finished”); listly_action_end = true; } process();
Шаг 3: Нажмите «Обновить» и выполните повторную очистку веб-сайта.
После сохранения изменений нажмите значок ОБНОВИТЬ, чтобы повторить очистку.
После этого ваш статус изменится на ВЫПОЛНЯЕТСЯ. Обновите браузер, если хотите проверить обновления статуса.
После завершения парсинга веб-страниц нажмите кнопку ПОСЛЕДНЯЯ справа.
Теперь вы увидите всю информацию об изображении, полученную с веб-сайта. С Listly нет ничего невозможного.
Подробнее читайте в блоге Листли!
Дальнейшее чтение
Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.