Загрузчики документов
Notion
Notion Notion — платформа для совместной работы, объединяющая ведение заметок, управление знаниями и управление проектами. Этот модуль предоставляет три различных типа загрузчиков для обработки контента Notion: базы данных, страницы и папки.
Загрузчик базы данных Notion
Загрузчик базы данных извлекает содержимое из баз данных Notion, рассматривая каждую строку как отдельный документ.
Функции
- Загрузка строк базы данных как документов
- Извлечение свойств в качестве метаданных
- Поддержка заголовков свойств
- Обработка одновременной загрузки
- Обработка содержимого с использованием разделителей текста
- Настройка извлечения метаданных
Обязательные параметры
- Connect Credential: учетные данные API Notion
- Database Id: уникальный идентификатор базы данных Notion
Загрузчик страниц Notion
Загрузчик страниц извлекает содержимое из страниц Notion, включая все дочерние страницы как отдельные документы.
Функции
- Загрузка содержимого страниц как документов
- Рекурсивная обработка дочерних страниц
- Извлечение свойств страницы
- Обработка иерархии страниц
- Поддержка разделения текста
- Настройка извлечения метаданных
Обязательные параметры
- Connect Credential: учетные данные API Notion
- Page Id: 32-символьный шестнадцатеричный идентификатор из URL страницы
Загрузчик папок Notion
Загрузчик папки обрабатывает экспортированный и распакованный контент Notion из локальной папки.
Функции
- Обработка экспортированного контента Notion
- Обработка нескольких страниц
- Поддержка локальной файловой системы
- Извлечение содержимого страниц
- Поддержание структуры документа
- Поддержка разделения текста
- Настройка извлечения метаданных
Обязательные параметры
Notion Folder: путь к экспортированной и распакованной папке с контентом Notion
Общие особенности
Все загрузчики Notion поддерживают:
Опциональные параметры
- Text Splitter: средство для разделения текста при обработке извлечённого содержимого.
- Additional Metadata: JSON-объект с дополнительными метаданными.
- Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить.
Выходные данные
- Document: массив объектов документов, содержащих метаданные и pageContent.
- Text: объединённая строка из pageContent всех документов.
Аутентификация
API-аутентификация (для загрузчиков базы данных и страниц)
- Требуется токен интеграции Notion
- Обработка ограничения скорости API выполняется автоматически
- Поддержка доступа на уровне рабочего пространства
- Безопасное управление учетными данными
Личный доступ (для загрузчика папки)
- Не требуется аутентификация
- Прямой доступ к файловой системе
- Обработка офлайн-контента
- Обработка экспортированных данных
Структура документа
Каждый документ содержит:
- pageContent: извлечённый текст,
- metadata:
- source: исходный URL или путь к файлу,
- title: название страницы или базы данных,
- properties: свойства Notion,
- дополнительные пользовательские метаданные.
Примечания
- Для API-загрузчиков необходимо настроить интеграцию с Notion
- Загрузчик папок требует экспортированного контента
- Ограничения скорости API управляются автоматически
- Эффективная обработка памяти
- Обработка ошибок при некорректных входных данных
- Поддержка больших наборов данных
- Гибкие форматы вывода
- Настраиваемость метаданных

