Osmi
Загрузчики документов

GitBook

Загрузка данных из GitBook.

GitBook — это современная платформа для документации, которая помогает командам делиться знаниями. Этот модуль предоставляет функции для загрузки и обработки контента с сайтов документации GitBook. Этот модуль реализует продвинутый загрузчик документов GitBook, который способен:

  • Загружать содержимое с конкретных страниц GitBook
  • Обходить весь сайт документации GitBook
  • Извлекать структурированный контент
  • Обрабатывать содержимое с помощью разбиения текста
  • Настраивать извлечение метаданных
  • Работать с рекурсивной загрузкой страниц

Входные параметры

Обязательные

Дополнительные параметры

  • Should Load All Paths: Нужно ли рекурсивно загружать все страницы из корневого пути
  • Text Splitter: Инструмент для разбиения извлечённого текста
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: Список ключей метаданных через запятую для исключения

Выходные данные

  • Document: Массив объектов документов, содержащих метаданные и содержимое страницы (pageContent)
  • Text: Объединённая строка, полученная из всех pageContent документов

Функции

  • Загрузка одной страницы
  • Рекурсивный обход сайта
  • Извлечение содержимого
  • Поддержка разбиения текста
  • Настройка метаданных
  • Обработка ошибок
  • Управление путями и навигацией

Режимы загрузки

Режим одной страницы

  • Загружает содержимое с конкретной страницы
  • Извлекает содержимое и метаданные
  • Сохраняет структуру страницы
  • Быстрый доступ к одной странице

Режим всех путей

  • Рекурсивно загружает все страницы, начиная с корня
  • Сохраняет иерархию сайта
  • Извлекает весь доступный контент
  • Сохраняет навигационную структуру

Структура документа

  • Каждый документ содержит:
  • pageContent: Извлечённый контент страницы
  • metadata: Метаданные, включая:
  • title: Заголовок страницы
  • url: Оригинальный URL страницы
  • Дополнительные пользовательские метаданные

Примечания

  • Поддержка как одностраничной, так и полной загрузки сайта
  • Обработка динамического контента GitBook
  • Сохранение структуры документов
  • Добавление пользовательских метаданных
  • Обработка ошибок при некорректных URL
  • Эффективное использование памяти
  • Гибкие форматы вывода