Osmi
Загрузчики документов

Обходчик содержимого веб-сайтов Apify

Загружает данные с помощью Обходчика содержимого веб-сайтов Apify.

Обходчик содержимого веб-сайтов Apify — это мощный инструмент для веб-скрейпинга, который может извлекать содержимое с сайтов, используя различные движки обхода. Этот модуль обеспечивает интеграцию с обходчиком содержимого веб-сайтов Apify для загрузки и обработки веб-контента.

Этот модуль предоставляет продвинутого веб-обходчика, который может:

  • Обходить несколько сайтов, начиная с указанных начальных URL
  • Использовать разные движки обхода (Chrome, Firefox, Cheerio, JSDOM)
  • Контролировать глубину обхода и лимит страниц
  • Обрабатывать содержимое, сгенерированное JavaScript
  • Обрабатывать извлечённое содержимое с помощью разделителей текста
  • Настраивать извлечение метаданных

Входные параметры

Обязательные параметры:

  • Start URLs: список URL-ов, разделённых запятыми, с которых начнётся обход
  • Connect Apify API: креденциалы API Apify
  • Crawler Type: выбор движка обхода:
    • Headless браузер (Chrome + Playwright)
    • Скрытый браузер (Firefox + Playwright)
    • Прямой HTTP-клиент (Cheerio)
    • Прямой HTTP-клиент с выполнением JavaScript (JSDOM)

Опциональные параметры:

  • Text Splitter: разделитель текста для обработки извлечённого содержимого
  • Max Crawling Depth: максимальная глубина ссылок для обхода (по умолчанию: 1)
  • Max Crawl Pages: максимальное количество страниц для обхода (по умолчанию: 3)
  • Additional Input: JSON-объект с дополнительной настройкой обходчика
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: список ключей метаданных, которые нужно исключить, разделённых запятыми

Выходные данные

  • Document: массив объектов, содержащих метаданные и содержимое страницы (pageContent)
  • Text: объединённая строка из pageContent документов

Функции

  • Поддержка нескольких движков обхода
  • Настраиваемые параметры обхода
  • Поддержка рендеринга JavaScript
  • Контроль глубины обхода и лимита страниц
  • Настройка метаданных
  • Возможности разделения текста
  • Обработка ошибок

Типы обходчиков

Headless Chrome (Playwright)

  • Лучший для современных веб-приложений
  • Полная поддержка JavaScript
  • Большое потребление ресурсов

Stealthy Firefox (Playwright)

  • Хорошо для сайтов с обнаружением ботов
  • Полная поддержка JavaScript
  • Более скрытная работа

Cheerio

  • Быстрый и лёгкий
  • Без поддержки JavaScript
  • Меньшие ресурсы

JSDOM (экспериментально)

  • Поддержка выполнения JavaScript
  • Лёгкая альтернатива браузерам
  • Экспериментальные возможности

Примечания

  • Требуется действительный токен API Apify
  • Различные типы обходчиков имеют разные возможности
  • Использование ресурсов зависит от типа обходчика
  • Поддержка JavaScript зависит от типа обходчика
  • Может применяться ограничение скорости, зависит от плана Apify
  • Дополнительная настройка через JSON-ввод

Сканировать весь сайт

  • (Опционально) Подключите разделитель текста.
  • Подключите API Apify (создайте новый ключ с вашим токеном API).
  • Введите один или несколько URL-ов (через запятую), с которых начнётся обход, например
  • Выберите тип обходчика. Подробнее см. документацию по обходчику содержимого веб-сайтов.
  • (Опционально) Укажите дополнительные параметры, такие как максимальная глубина обхода и лимит страниц.

Выход

Загружает содержимое сайта в виде документа.