Загрузчики документов

Cheerio — инструмент веб-скрапинга

Cheerio — это быстрая, гибкая и лёгкая реализация ядра jQuery, предназначенная специально для серверной стороны. Этот модуль обеспечивает мощные возможности веб-скрапинга с использованием Cheerio для извлечения контента с веб-страниц.

Этот модуль представляет собой продвинутый веб-скрапер, который умеет:

Загружать содержимое с одной или нескольких страниц
Обходить относительные ссылки на сайтах
Извлекать контент с помощью CSS-селекторов
Обрабатывать XML-карты сайтов (sitemaps)
Обрабатывать веб-контент с помощью разделителей текста

Входные параметры

URL: URL-адрес веб-страницы для скрапинга
Text Splitter (опционально): Инструмент для обработки извлечённого контента
Get Relative Links Method (опционально): Выбор метода получения относительных ссылок:
Web Crawl: Обойти относительные ссылки в HTML по URL
Scrape XML Sitemap: Получить относительные ссылки из XML-карты сайта
Get Relative Links Limit (опционально): Ограничение количества обработанных ссылок (по умолчанию: 10, 0 — все)
Selector (CSS) (опционально): CSS-селектор для точечного извлечения контента
Additional Metadata (опционально): JSON-объект с дополнительными метаданными для добавления в документы
Omit Metadata Keys (опционально): Список ключей метаданных через запятую, которые нужно исключить

Выходные данные

Document: Массив объектов с метаданными и содержимым страницы (pageContent)
Text: Объединённая строка, склеенная из pageContent всех документов

Основные функции

Извлечение контента с помощью CSS-селекторов
Возможности обхода сайтов
Обработка XML-карт сайтов
Настраиваемый лимит на количество ссылок
Обработка ошибок для недопустимых URL и PDF-файлов (они будут пропущены)
Настройка метаданных
Поддержка отладочного логирования

Примечания

PDF-файлы не поддерживаются и будут пропущены
Неверные URL вызовут ошибку
Установка лимита ссылок в 0 позволяет получить все доступные ссылки (может занять больше времени)
В режиме отладки выводится подробное логирование процесса скрапинга

Скрейпинг одного URL

(необязательно) подключите Text Splitter.
Введите нужный URL для скрапинга.

Обход и скрейпинг нескольких URL

Выберите в Get Relative Links Method вариант Web Crawl или Scrape XML Sitemap.
В Get Relative Links Limit введите 0, чтобы получить все ссылки с указанного URL.

Управление ссылками (опционально)

Введите URL для обхода.
Нажмите Fetch Links, чтобы получить список ссылок согласно выбранным настройкам.
В разделе Crawled Links удалите лишние ссылки, кликнув по красной иконке корзины (Red Trash Bin). Нажмите Save.

Выход данные

После выполнения все найденные URL будут загружены как документы, готовые к дальнейшей обработке.

Загрузчик документов API BraveSearch

Confluence

Загрузчик документов Confluence