Osmi
Загрузчики документов

Oxylabs Document Loaders

Получайте данные с любого сайта с помощью Oxylabs.

Oxylabs — это сервис веб-скрапинга, который собирает публичные веб-данные в масштабах, с инструментами, предназначенными для обхода региональных ограничений.

Функции

  • Получение данных с Google, Amazon и любого другого сайта
  • Установка геолокации
  • Использование отображения браузера
  • Парсинг данных
  • Указание типов User Agent
  • Обработка содержимого с помощью разделителей текста

Обязательные параметры

  • Connect Credential: учетные данные API Oxylabs
  • Query: поисковый запрос или URL
  • Source: один из доступных источников:
    • Universal: сбор данных с любого сайта
    • Google Search: сбор результатов поиска Google
    • Amazon Product: сбор информации о товаре с Amazon
    • Amazon Search: сбор результатов поиска Amazon

Опциональные параметры

  • Geolocation: установка геолокации прокси-сервера для получения данных; подробнее в документации
  • Render: включение JavaScript-отображения при значении true
  • Parse: возвращает распарсенные данные при true, при условии, что для типа страницы URL есть соответствующий парсер
  • User Agent Type: тип устройства и браузера

Выходные данные

  • Document: массив объектов, содержащих метаданные и pageContent
  • Text: объединённая строка из pageContent всех документов

Структура документа

Каждый документ содержит:

  • pageContent: извлечённое содержание страницы