Загрузчики документов
Cheerio — инструмент веб-скрапинга
Cheerio — это быстрая, гибкая и лёгкая реализация ядра jQuery, предназначенная специально для серверной стороны. Этот модуль обеспечивает мощные возможности веб-скрапинга с использованием Cheerio для извлечения контента с веб-страниц.
Этот модуль представляет собой продвинутый веб-скрапер, который умеет:
- Загружать содержимое с одной или нескольких страниц
- Обходить относительные ссылки на сайтах
- Извлекать контент с помощью CSS-селекторов
- Обрабатывать XML-карты сайтов (sitemaps)
- Обрабатывать веб-контент с помощью разделителей текста
Входные параметры
- URL: URL-адрес веб-страницы для скрапинга
- Text Splitter (опционально): Инструмент для обработки извлечённого контента
- Get Relative Links Method (опционально): Выбор метода получения относительных ссылок:
- Web Crawl: Обойти относительные ссылки в HTML по URL
- Scrape XML Sitemap: Получить относительные ссылки из XML-карты сайта
- Get Relative Links Limit (опционально): Ограничение количества обработанных ссылок (по умолчанию: 10, 0 — все)
- Selector (CSS) (опционально): CSS-селектор для точечного извлечения контента
- Additional Metadata (опционально): JSON-объект с дополнительными метаданными для добавления в документы
- Omit Metadata Keys (опционально): Список ключей метаданных через запятую, которые нужно исключить
Выходные данные
- Document: Массив объектов с метаданными и содержимым страницы (pageContent)
- Text: Объединённая строка, склеенная из pageContent всех документов
Основные функции
- Извлечение контента с помощью CSS-селекторов
- Возможности обхода сайтов
- Обработка XML-карт сайтов
- Настраиваемый лимит на количество ссылок
- Обработка ошибок для недопустимых URL и PDF-файлов (они будут пропущены)
- Настройка метаданных
- Поддержка отладочного логирования
Примечания
- PDF-файлы не поддерживаются и будут пропущены
- Неверные URL вызовут ошибку
- Установка лимита ссылок в 0 позволяет получить все доступные ссылки (может занять больше времени)
- В режиме отладки выводится подробное логирование процесса скрапинга
Скрейпинг одного URL
- (необязательно) подключите Text Splitter.
- Введите нужный URL для скрапинга.
Обход и скрейпинг нескольких URL
- Выберите в Get Relative Links Method вариант Web Crawl или Scrape XML Sitemap.
- В Get Relative Links Limit введите 0, чтобы получить все ссылки с указанного URL.
Управление ссылками (опционально)
- Введите URL для обхода.
- Нажмите Fetch Links, чтобы получить список ссылок согласно выбранным настройкам.
- В разделе Crawled Links удалите лишние ссылки, кликнув по красной иконке корзины (Red Trash Bin). Нажмите Save.
Выход данные
После выполнения все найденные URL будут загружены как документы, готовые к дальнейшей обработке.

