Osmi
Загрузчики документов

Cheerio — инструмент веб-скрапинга

Cheerio — это быстрая, гибкая и лёгкая реализация ядра jQuery, предназначенная специально для серверной стороны. Этот модуль обеспечивает мощные возможности веб-скрапинга с использованием Cheerio для извлечения контента с веб-страниц.

Этот модуль представляет собой продвинутый веб-скрапер, который умеет:

  • Загружать содержимое с одной или нескольких страниц
  • Обходить относительные ссылки на сайтах
  • Извлекать контент с помощью CSS-селекторов
  • Обрабатывать XML-карты сайтов (sitemaps)
  • Обрабатывать веб-контент с помощью разделителей текста

Входные параметры

  • URL: URL-адрес веб-страницы для скрапинга
  • Text Splitter (опционально): Инструмент для обработки извлечённого контента
  • Get Relative Links Method (опционально): Выбор метода получения относительных ссылок:
  • Web Crawl: Обойти относительные ссылки в HTML по URL
  • Scrape XML Sitemap: Получить относительные ссылки из XML-карты сайта
  • Get Relative Links Limit (опционально): Ограничение количества обработанных ссылок (по умолчанию: 10, 0 — все)
  • Selector (CSS) (опционально): CSS-селектор для точечного извлечения контента
  • Additional Metadata (опционально): JSON-объект с дополнительными метаданными для добавления в документы
  • Omit Metadata Keys (опционально): Список ключей метаданных через запятую, которые нужно исключить

Выходные данные

  • Document: Массив объектов с метаданными и содержимым страницы (pageContent)
  • Text: Объединённая строка, склеенная из pageContent всех документов

Основные функции

  • Извлечение контента с помощью CSS-селекторов
  • Возможности обхода сайтов
  • Обработка XML-карт сайтов
  • Настраиваемый лимит на количество ссылок
  • Обработка ошибок для недопустимых URL и PDF-файлов (они будут пропущены)
  • Настройка метаданных
  • Поддержка отладочного логирования

Примечания

  • PDF-файлы не поддерживаются и будут пропущены
  • Неверные URL вызовут ошибку
  • Установка лимита ссылок в 0 позволяет получить все доступные ссылки (может занять больше времени)
  • В режиме отладки выводится подробное логирование процесса скрапинга

Скрейпинг одного URL

  • (необязательно) подключите Text Splitter.
  • Введите нужный URL для скрапинга.

Обход и скрейпинг нескольких URL

  • Выберите в Get Relative Links Method вариант Web Crawl или Scrape XML Sitemap.
  • В Get Relative Links Limit введите 0, чтобы получить все ссылки с указанного URL.

Управление ссылками (опционально)

  • Введите URL для обхода.
  • Нажмите Fetch Links, чтобы получить список ссылок согласно выбранным настройкам.
  • В разделе Crawled Links удалите лишние ссылки, кликнув по красной иконке корзины (Red Trash Bin). Нажмите Save.

Выход данные

После выполнения все найденные URL будут загружены как документы, готовые к дальнейшей обработке.