Как легко автоматизировать процесс парсинга веб-страниц с помощью Listly, удобного для начинающих инструмента без кода.

Сбор данных для вашего проекта может быть утомительной задачей, которая занимает долгие часы вашего дня, но всегда есть лучший способ сделать это — просмотр веб-страниц. Для тех из вас, кто не знаком с веб-скрапингом, это также называется скрапинг данных, то есть извлечение данных с веб-сайтов.

Но если вы когда-либо пытались собрать данные с веб-сайтов, вы, возможно, знаете, что есть несколько вещей, которые могут пойти не так. Веб-сайт может заблокировать ваш IP-адрес или полностью изменить свою структуру. И все это может произойти без предупреждения.

С появлением удивительных инструментов для веб-скрейпинга без кода вам обязательно стоит воспользоваться такими инструментами для веб-скрейпинга, как Listly.

Listly — это простой в использовании инструмент для веб-скрейпинга без кода с очень доступной моделью ценообразования. (Тем не менее, любой может использовать Listly бесплатно!)

Это расширение для браузера Chrome, которое вы можете настроить для автоматического сбора данных. Сервис основан на щелчке и захвате, поэтому он идеально подходит для начинающих программистов.

Вам нужна только веб-страница, с которой вы хотите извлечь данные (вы можете контролировать, с какой части страницы) и установленное расширение Listly. Процесс полностью автоматизирован, и вы быстро получите результат либо в форме Excel, либо в электронной таблице Google.

Это пошаговое руководство поможет вам автоматизировать процесс очистки данных с помощью службы сценариев действий Listly.

Шаг 1. Нажмите «СПИСОК ЦЕЛЫХ», чтобы выполнить очистку веб-сайта.

Нажмите СПИСОК ЦЕЛЫХ и очистите информацию об изображении, как показано ниже.

Как только вы нажмете кнопку, Listly перенесет вас на страницу результатов с информацией, извлеченной с веб-сайта. Хм… это не обычно, но некоторые веб-сайты делают свою информацию полностью невидимой, чтобы никто не мог ее очистить, как в этом случае.

Не беспокойся! Listly предоставляет услуги ACTION SCRIPT для тех, кто застрял в веб-скрейпинге, по запросу.

Шаг 2: Скопируйте и вставьте сценарий действия в настройки

Перейдите в раздел DATABOARD и щелкните значок НАСТРОЙКИ.

Скопируйте сценарий действия — он предназначен для очистки веб-сайта Loewe, испанского дома моды класса люкс, специализирующегося на изделиях из кожи и одежде — ниже и вставьте его в раздел СЦЕНАРИЙ ДЕЙСТВИЯ — готово!

listly_action_end = false;
let sleep = (t) => { return new Promise(resolve=>setTimeout(resolve,t)); }
async function custom_action() {
// CUSTOM_ACTION — START
// Replace the Thumbnail Blob src with link src
thumbnail_elements = document.querySelectorAll(“#js-image-container > div.swiper-container.js-pdp-images-swiper > div.swiper-wrapper > div > picture”);
for (let te of thumbnail_elements) {
img_element = te.querySelector(“img”);
link_element = te.querySelector(“link”);
if (img_element == null || link_element == null) {
break
} else {
img_element.src = link_element.href;
}
await sleep(200);
}
// CUSTOM_ACTION — END
}
async function process() {
console.log(“process function started”);
await custom_action();
console.log(“process function finished”);
listly_action_end = true;
}
process();

Шаг 3: Нажмите «Обновить» и выполните повторную очистку веб-сайта.

После сохранения изменений нажмите значок ОБНОВИТЬ, чтобы повторить очистку.

После этого ваш статус изменится на ВЫПОЛНЯЕТСЯ. Обновите браузер, если хотите проверить обновления статуса.

После завершения парсинга веб-страниц нажмите кнопку ПОСЛЕДНЯЯ справа.

Теперь вы увидите всю информацию об изображении, полученную с веб-сайта. С Listly нет ничего невозможного.

Подробнее читайте в блоге Листли!

Дальнейшее чтение





Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.