Загрузчики документов
GitBook
Загрузка данных из GitBook.
GitBook — это современная платформа для документации, которая помогает командам делиться знаниями. Этот модуль предоставляет функции для загрузки и обработки контента с сайтов документации GitBook. Этот модуль реализует продвинутый загрузчик документов GitBook, который способен:
- Загружать содержимое с конкретных страниц GitBook
- Обходить весь сайт документации GitBook
- Извлекать структурированный контент
- Обрабатывать содержимое с помощью разбиения текста
- Настраивать извлечение метаданных
- Работать с рекурсивной загрузкой страниц
Входные параметры
Обязательные
- Web Path: URL-адрес страницы GitBook или корневого пути, например:
- Отдельная страница: https://docs.gitbook.com/product-tour/navigation
- Корень сайта: https://docs.gitbook.com/
Дополнительные параметры
- Should Load All Paths: Нужно ли рекурсивно загружать все страницы из корневого пути
- Text Splitter: Инструмент для разбиения извлечённого текста
- Additional Metadata: JSON-объект с дополнительными метаданными
- Omit Metadata Keys: Список ключей метаданных через запятую для исключения
Выходные данные
- Document: Массив объектов документов, содержащих метаданные и содержимое страницы (pageContent)
- Text: Объединённая строка, полученная из всех pageContent документов
Функции
- Загрузка одной страницы
- Рекурсивный обход сайта
- Извлечение содержимого
- Поддержка разбиения текста
- Настройка метаданных
- Обработка ошибок
- Управление путями и навигацией
Режимы загрузки
Режим одной страницы
- Загружает содержимое с конкретной страницы
- Извлекает содержимое и метаданные
- Сохраняет структуру страницы
- Быстрый доступ к одной странице
Режим всех путей
- Рекурсивно загружает все страницы, начиная с корня
- Сохраняет иерархию сайта
- Извлекает весь доступный контент
- Сохраняет навигационную структуру
Структура документа
- Каждый документ содержит:
- pageContent: Извлечённый контент страницы
- metadata: Метаданные, включая:
- title: Заголовок страницы
- url: Оригинальный URL страницы
- Дополнительные пользовательские метаданные
Примечания
- Поддержка как одностраничной, так и полной загрузки сайта
- Обработка динамического контента GitBook
- Сохранение структуры документов
- Добавление пользовательских метаданных
- Обработка ошибок при некорректных URL
- Эффективное использование памяти
- Гибкие форматы вывода

