Web Scraper — это расширение браузера, используемое для извлечения данных со страниц (веб-сканер). Это очень полезно для простых или случайных нужд, таких как написание кода и отсутствие некоторых примеров данных. С помощью этого плагина вы можете быстро извлечь контент с похожих веб-сайтов в качестве данных моделирования. от Chrome После установки плагина маркета страница F12 Когда вы откроете инструменты разработчика, там будет дополнительное имя Web Scraper панель и начнем с этого.
Напишите пример: извлеките текст нескольких кнопок навигации внизу главной страницы Baidu, чтобы понять, как работает Web Scraper.
Создание задача, то есть создать SiteMap (это слово нечасто употребляется, возьмем привычное нам слово, смысл примерно тот же). Открыть Домашняя страница Байду,Затем откройте панель разработчика и выполните следующие действия.,URL-адреса могут использовать специальный синтаксис,Мы поговорим об этом позже.
После сканирования обязательно проверьте правильность данных.,Формат неправильный, и селектор необходимо отрегулировать.,Просмотр данныхшагиследующее:
Убедившись в правильности, вы можете сохранить его (как показано ниже). В настоящее время его можно экспортировать только в формате Excel или CSV, а json требует пополнения счета (членства), но это не большая проблема, просто найдите онлайн-сайт и перенесите его.
После сканирования обязательно проверьте правильность данных.,Формат неправильный, и селектор необходимо отрегулировать.,Просмотр данныхшагиследующее:
Убедившись в правильности, вы можете сохранить его (как показано ниже). В настоящее время его можно экспортировать только в формате Excel или CSV, а json требует пополнения счета (членства), но это не большая проблема, просто найдите онлайн-сайт и перенесите его.
Сканируемый URL-адрес поддерживает специальный синтаксис, который очень полезен, если нумерация страниц отражена в URL-адресе. следующее:
Извлеките данные таблицы в Список доменных имен IANA Например, следующим образом:
Извлеките имена и адреса ссылок в Домашняя страница Байду Например, следующее:
Домашняя страница Байду Например, следующее:
Извлечь значения атрибутов в Домашняя страница Байду Например, следующее:
Извлеките адрес изображения в Домашняя страница Байду Например, следующее:
Извлеките данные таблицы в Список доменных имен IANA Например, следующим образом:
После создания элементов и подселекторов отображаются следующие данные предварительного просмотра:
Извлеките имена и адреса ссылок в Домашняя страница Байду Например, следующее:
Данные запроса страницы,Поддержка нескольких типов,Селектор прокрутки элемента, Селектор кликов по элемент более мощный. Стоит отметить, что подселектор необходимо разместить в Селекторе. нумерации страницы Интерьер. к Блог Парк WEB-нумерация страниц Например, смоделируйте приведенный выше Селектор кликов по Эффект элемента,следующее:
Домашняя страница Байду Например, следующее:
Это относительно просто, введите sitemap.xml Адрес может быть,следующее:
Извлечение элементов на самом деле является функцией группировки. Например, есть список, и каждый подэлемент имеет такие атрибуты, как имя, адрес ссылки и т. д. Элемент представляет собой блок, который обертывает эти атрибуты, и вы можете понять объекты в JS.
Хорошо, весь контент из этого видео выше вы можете использовать для сканирования данных на веб-страницах Zhihu, Baidu, Douban и т. д.
Если эта статья вам полезна, не забудьте нажать трижды. Ваша поддержка — моя самая большая мотивация!