Osmi
Загрузчики документов

База документов

Загружает данные из предварительно настроенных хранилищ документов.

Этот загрузчик позволяет получать данные из заранее настроенных баз документов в вашей базе данных. Он предоставляет удобный способ доступа и использования ранее обработанных и сохранённых документов в ваших рабочих процессах.

Основные возможности

  • Загрузка документов из синхронизированных база документов
  • Автоматическая обработка метаданных
  • Поддержка нескольких форматов вывода
  • Асинхронный выбор хранилища
  • Интеграция с базой данных
  • Получение документов по частям (чанками)
  • Поддержка метаданных в формате JSON

Как работает

  1. Выбор базы:
  • Отображает все доступные базы в статусе SYNC
  • Предоставляет информацию о базе, включая название и описание
  • Позволяет выбрать только синхронизированные баз
  1. Получение документов:
  • Загружает чанки документов из выбранной базы
  • Восстанавливает документы с первоначальными метаданными
  • Сохраняет структуру и взаимосвязи документов

Параметры

Обязательный параметр:

Select Store: выбрать из списка синхронизированных баз

  • Отображает имя и описание хранилища
  • Показывает только те, что в статусе SYNC
  • Обновляется автоматически при изменениях в базе данных

Выходные данные (форматы)

Загрузчик предоставляет два формата вывода:

Вывод документа

Возвращает массив объектов документов, где каждый содержит:

  • pageContent: фактическое содержимое фрагмента документа
  • metadata: исходные метаданные документа в формате JSON

Вывод текста

Возвращает объединённую строку, содержащую:

  • содержимое всех фрагментов документа
  • разделённое переводами строк
  • правильно экранированные символы

Интеграция с базой данных

Загрузчик интегрируется с вашей базой данных через:

  • подключение к источнику данных TypeORM
  • управление сущностями хранилища документов
  • хранение и поиск по кускам данных
  • сохранение метаданных

Структура документа

Каждый загруженный документ содержит:

{
  pageContent: string,    // The actual content
  metadata: {            // Parsed JSON metadata
    // Original document metadata
    // Store-specific information
    // Custom metadata fields
  }
}

Примеры использования

Выбор базы:

{
  "selectedStore": "store-id-123"
}

Доступ к содержимому документов (массив):

// Document output format
[
  {
    "pageContent": "Document content here...",
    "metadata": {
      "source": "original-file.pdf",
      "page": 1,
      "category": "reports"
    }
  }
]

// Text output format
"Document content here...\nNext document content here...\n"

Лучшие практики

  1. Перед использованием убедитесь, что базы синхронизированы
  2. Выбирайте формат вывода исходя из требований
  3. Обрабатывайте метаданные в рабочем процессе
  4. При обработке больших документов учитывайте размер чанков
  5. Следите за производительностью базы данных при больших объёмах данных

Примечания

  • Только ба в статусе SYNC доступны для выбора
  • Метаданные автоматом парсятся из JSON
  • Объекты документов восстанавливаются из чанков
  • Поддержка обоих форматов вывода — документа и текста
  • Использует интеграцию через TypeORM
  • Обрабатывает escape-символы в текстовом выводе
  • Соблюдает исходную структуру документов

Этот раздел находится в разработке. Мы признательны за любую помощь, которую вы можете предоставить для его завершения.