Osmi
Загрузчики документов

Notion

Notion Notion — платформа для совместной работы, объединяющая ведение заметок, управление знаниями и управление проектами. Этот модуль предоставляет три различных типа загрузчиков для обработки контента Notion: базы данных, страницы и папки.

Загрузчик базы данных Notion

Загрузчик базы данных извлекает содержимое из баз данных Notion, рассматривая каждую строку как отдельный документ.

Функции

  • Загрузка строк базы данных как документов
  • Извлечение свойств в качестве метаданных
  • Поддержка заголовков свойств
  • Обработка одновременной загрузки
  • Обработка содержимого с использованием разделителей текста
  • Настройка извлечения метаданных

Обязательные параметры

  • Connect Credential: учетные данные API Notion
  • Database Id: уникальный идентификатор базы данных Notion

Загрузчик страниц Notion

Загрузчик страниц извлекает содержимое из страниц Notion, включая все дочерние страницы как отдельные документы.

Функции

  • Загрузка содержимого страниц как документов
  • Рекурсивная обработка дочерних страниц
  • Извлечение свойств страницы
  • Обработка иерархии страниц
  • Поддержка разделения текста
  • Настройка извлечения метаданных

Обязательные параметры

  • Connect Credential: учетные данные API Notion
  • Page Id: 32-символьный шестнадцатеричный идентификатор из URL страницы

Загрузчик папок Notion

Загрузчик папки обрабатывает экспортированный и распакованный контент Notion из локальной папки.

Функции

  • Обработка экспортированного контента Notion
  • Обработка нескольких страниц
  • Поддержка локальной файловой системы
  • Извлечение содержимого страниц
  • Поддержание структуры документа
  • Поддержка разделения текста
  • Настройка извлечения метаданных

Обязательные параметры

Notion Folder: путь к экспортированной и распакованной папке с контентом Notion

Общие особенности

Все загрузчики Notion поддерживают:

Опциональные параметры

  • Text Splitter: средство для разделения текста при обработке извлечённого содержимого.
  • Additional Metadata: JSON-объект с дополнительными метаданными.
  • Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить.

Выходные данные

  • Document: массив объектов документов, содержащих метаданные и pageContent.
  • Text: объединённая строка из pageContent всех документов.

Аутентификация

API-аутентификация (для загрузчиков базы данных и страниц)

  • Требуется токен интеграции Notion
  • Обработка ограничения скорости API выполняется автоматически
  • Поддержка доступа на уровне рабочего пространства
  • Безопасное управление учетными данными

Личный доступ (для загрузчика папки)

  • Не требуется аутентификация
  • Прямой доступ к файловой системе
  • Обработка офлайн-контента
  • Обработка экспортированных данных

Структура документа

Каждый документ содержит:

  • pageContent: извлечённый текст,
  • metadata:
    • source: исходный URL или путь к файлу,
    • title: название страницы или базы данных,
    • properties: свойства Notion,
    • дополнительные пользовательские метаданные.

Примечания

  • Для API-загрузчиков необходимо настроить интеграцию с Notion
  • Загрузчик папок требует экспортированного контента
  • Ограничения скорости API управляются автоматически
  • Эффективная обработка памяти
  • Обработка ошибок при некорректных входных данных
  • Поддержка больших наборов данных
  • Гибкие форматы вывода
  • Настраиваемость метаданных