Плагин для браузера: базовое использование WebScraper и сканирование содержимого страницы (вы можете сканировать данные без программирования)
Плагин для браузера: базовое использование WebScraper и сканирование содержимого страницы (вы можете сканировать данные без программирования)

Web Scraper — это расширение браузера, используемое для извлечения данных со страниц (веб-сканер). Это очень полезно для простых или случайных нужд, таких как написание кода и отсутствие некоторых примеров данных. С помощью этого плагина вы можете быстро извлечь контент с похожих веб-сайтов в качестве данных моделирования. от Chrome После установки плагина маркета страница F12 Когда вы откроете инструменты разработчика, там будет дополнительное имя Web Scraper панель и начнем с этого.

Начинайте быстро

Напишите пример: извлеките текст нескольких кнопок навигации внизу главной страницы Baidu, чтобы понять, как работает Web Scraper.

Создание задач

Создание задача, то есть создать SiteMap (это слово нечасто употребляется, возьмем привычное нам слово, смысл примерно тот же). Открыть Домашняя страница Байду,Затем откройте панель разработчика и выполните следующие действия.,URL-адреса могут использовать специальный синтаксис,Мы поговорим об этом позже.

Выберите контент
Начать ползать
Просмотр данных

После сканирования обязательно проверьте правильность данных.,Формат неправильный, и селектор необходимо отрегулировать.,Просмотр данныхшагиследующее:

сохранить данные

Убедившись в правильности, вы можете сохранить его (как показано ниже). В настоящее время его можно экспортировать только в формате Excel или CSV, а json требует пополнения счета (членства), но это не большая проблема, просто найдите онлайн-сайт и перенесите его.

Просмотр данных

После сканирования обязательно проверьте правильность данных.,Формат неправильный, и селектор необходимо отрегулировать.,Просмотр данныхшагиследующее:

сохранить данные

Убедившись в правильности, вы можете сохранить его (как показано ниже). В настоящее время его можно экспортировать только в формате Excel или CSV, а json требует пополнения счета (членства), но это не большая проблема, просто найдите онлайн-сайт и перенесите его.

краткое содержание
Выбор изображения

Сканируемый URL-адрес поддерживает специальный синтаксис, который очень полезен, если нумерация страниц отражена в URL-адресе. следующее:

селектор таблиц

Извлеките данные таблицы в Список доменных имен IANA Например, следующим образом:

селектор ссылок

Извлеките имена и адреса ссылок в Домашняя страница Байду Например, следующее:

Домашняя страница Байду Например, следующее:

селектор атрибутов

Извлечь значения атрибутов в Домашняя страница Байду Например, следующее:

Выбор изображения

Извлеките адрес изображения в Домашняя страница Байду Например, следующее:

селектор элементов

Извлеките данные таблицы в Список доменных имен IANA Например, следующим образом:

После создания элементов и подселекторов отображаются следующие данные предварительного просмотра:

селектор ссылок

Извлеките имена и адреса ссылок в Домашняя страница Байду Например, следующее:

Селектор кликов по элементу
селектор группы
Селектор нумерации страниц

Данные запроса страницы,Поддержка нескольких типов,Селектор прокрутки элемента, Селектор кликов по элемент более мощный. Стоит отметить, что подселектор необходимо разместить в Селекторе. нумерации страницы Интерьер. к Блог Парк WEB-нумерация страниц Например, смоделируйте приведенный выше Селектор кликов по Эффект элемента,следующее:

Домашняя страница Байду Например, следующее:

Выбор карты сайта

Это относительно просто, введите sitemap.xml Адрес может быть,следующее:

tips

Извлечение элементов на самом деле является функцией группировки. Например, есть список, и каждый подэлемент имеет такие атрибуты, как имя, адрес ссылки и т. д. Элемент представляет собой блок, который обертывает эти атрибуты, и вы можете понять объекты в JS.

Заключение

Хорошо, весь контент из этого видео выше вы можете использовать для сканирования данных на веб-страницах Zhihu, Baidu, Douban и т. д.

Если эта статья вам полезна, не забудьте нажать трижды. Ваша поддержка — моя самая большая мотивация!

boy illustration
Статья длиной в 9000 слов знакомит вас с процессом запуска SpringBoot — самым подробным процессом запуска SpringBoot в истории — с изображениями и текстом.
boy illustration
Как настроить размер экрана в PR. Учебное пособие по настройке размера видео в PR [подробное объяснение]
boy illustration
Элегантный и мощный: упростите операции ElasticSearch с помощью easy-es
boy illustration
Проект аутентификации по микросервисному токену: концепция и практика
boy illustration
【Java】Решено: org.springframework.http.converter.HttpMessageNotWritableException.
boy illustration
Изучите Kimi Smart Assistant: как использовать сверхдлинный текст, чтобы открыть новую сферу эффективной обработки информации
boy illustration
Начало работы с Docker: использование томов данных и монтирования файлов для хранения и совместного использования данных
boy illustration
Использование Python для реализации автоматической публикации статей в публичном аккаунте WeChat
boy illustration
Разберитесь в механизме и принципах взаимодействия потребителя и брокера Kafka в одной статье.
boy illustration
Spring Boot — использование Resilience4j-Circuitbreaker для реализации режима автоматического выключателя_предотвращения каскадных сбоев
boy illustration
13. Springboot интегрирует Protobuf
boy illustration
Примечание. Инструмент управления батареями Dell Dell Power Manager
boy illustration
Общая интерпретация класса LocalDate [java]
boy illustration
[Базовые знания ASP.NET Core] -- Веб-API -- Создание и настройка веб-API (1)
boy illustration
Настоящий бой! Подключите Passkey к своему веб-сайту для безопасного входа в систему без пароля.
boy illustration
Руководство по настройке Nginx: как найти, интерпретировать и оптимизировать настройки Nginx в Linux
boy illustration
Typecho отображает использование памяти сервера
boy illustration
Как вставить элемент перед указанным ключом в ассоциативный массив в PHP
boy illustration
swagger2 экспортирует API как текстовый документ (реализация Java) [легко понять]
boy illustration
Выбор фреймворка nodejs Express koa egg MidwayJS сравнение NestJS
boy illustration
Руководство по загрузке, установке и использованию SVN «Рекомендуемая коллекция»
boy illustration
Интерфейс PHPforwarding_php отправляет запрос на получение
boy illustration
Создавайте и защищайте связь в реальном времени с помощью SignalR и Azure Active Directory.
boy illustration
ВичатПубличная платформаразвивать(три)——ВичатQR-кодгенерировать&Сканировать кодсосредоточиться на
boy illustration
[Углубленное понимание Java IO] Используйте InputStreamReader для чтения содержимого файла и легкого выполнения задач преобразования текста.
boy illustration
сравнение строк PHP
boy illustration
9 сценариев асинхронного сбоя @Async
boy illustration
Эффективная обработка запланированных задач: углубленное изучение секретов библиотеки APScheduler на Python
boy illustration
Рекомендации по облегченному артефакту развязки внутренних компонентов Spring Event (событие Spring)
boy illustration
Go: Лесоруб-лесоруб на колесах Введение