Загрузчики документов
Обходчик содержимого веб-сайтов Apify
Загружает данные с помощью Обходчика содержимого веб-сайтов Apify.
Обходчик содержимого веб-сайтов Apify — это мощный инструмент для веб-скрейпинга, который может извлекать содержимое с сайтов, используя различные движки обхода. Этот модуль обеспечивает интеграцию с обходчиком содержимого веб-сайтов Apify для загрузки и обработки веб-контента.
Этот модуль предоставляет продвинутого веб-обходчика, который может:
- Обходить несколько сайтов, начиная с указанных начальных URL
- Использовать разные движки обхода (Chrome, Firefox, Cheerio, JSDOM)
- Контролировать глубину обхода и лимит страниц
- Обрабатывать содержимое, сгенерированное JavaScript
- Обрабатывать извлечённое содержимое с помощью разделителей текста
- Настраивать извлечение метаданных
Входные параметры
Обязательные параметры:
- Start URLs: список URL-ов, разделённых запятыми, с которых начнётся обход
- Connect Apify API: креденциалы API Apify
- Crawler Type: выбор движка обхода:
- Headless браузер (Chrome + Playwright)
- Скрытый браузер (Firefox + Playwright)
- Прямой HTTP-клиент (Cheerio)
- Прямой HTTP-клиент с выполнением JavaScript (JSDOM)
Опциональные параметры:
- Text Splitter: разделитель текста для обработки извлечённого содержимого
- Max Crawling Depth: максимальная глубина ссылок для обхода (по умолчанию: 1)
- Max Crawl Pages: максимальное количество страниц для обхода (по умолчанию: 3)
- Additional Input: JSON-объект с дополнительной настройкой обходчика
- Additional Metadata: JSON-объект с дополнительными метаданными
- Omit Metadata Keys: список ключей метаданных, которые нужно исключить, разделённых запятыми
Выходные данные
- Document: массив объектов, содержащих метаданные и содержимое страницы (pageContent)
- Text: объединённая строка из pageContent документов
Функции
- Поддержка нескольких движков обхода
- Настраиваемые параметры обхода
- Поддержка рендеринга JavaScript
- Контроль глубины обхода и лимита страниц
- Настройка метаданных
- Возможности разделения текста
- Обработка ошибок
Типы обходчиков
Headless Chrome (Playwright)
- Лучший для современных веб-приложений
- Полная поддержка JavaScript
- Большое потребление ресурсов
Stealthy Firefox (Playwright)
- Хорошо для сайтов с обнаружением ботов
- Полная поддержка JavaScript
- Более скрытная работа
Cheerio
- Быстрый и лёгкий
- Без поддержки JavaScript
- Меньшие ресурсы
JSDOM (экспериментально)
- Поддержка выполнения JavaScript
- Лёгкая альтернатива браузерам
- Экспериментальные возможности
Примечания
- Требуется действительный токен API Apify
- Различные типы обходчиков имеют разные возможности
- Использование ресурсов зависит от типа обходчика
- Поддержка JavaScript зависит от типа обходчика
- Может применяться ограничение скорости, зависит от плана Apify
- Дополнительная настройка через JSON-ввод
Сканировать весь сайт
- (Опционально) Подключите разделитель текста.
- Подключите API Apify (создайте новый ключ с вашим токеном API).
- Введите один или несколько URL-ов (через запятую), с которых начнётся обход, например
- Выберите тип обходчика. Подробнее см. документацию по обходчику содержимого веб-сайтов.
- (Опционально) Укажите дополнительные параметры, такие как максимальная глубина обхода и лимит страниц.
Выход
Загружает содержимое сайта в виде документа.

