Загрузчики документов

База документов

Загружает данные из предварительно настроенных хранилищ документов.

Этот загрузчик позволяет получать данные из заранее настроенных баз документов в вашей базе данных. Он предоставляет удобный способ доступа и использования ранее обработанных и сохранённых документов в ваших рабочих процессах.

Основные возможности

Загрузка документов из синхронизированных база документов
Автоматическая обработка метаданных
Поддержка нескольких форматов вывода
Асинхронный выбор хранилища
Интеграция с базой данных
Получение документов по частям (чанками)
Поддержка метаданных в формате JSON

Как работает

Выбор базы:

Отображает все доступные базы в статусе SYNC
Предоставляет информацию о базе, включая название и описание
Позволяет выбрать только синхронизированные баз

Получение документов:

Загружает чанки документов из выбранной базы
Восстанавливает документы с первоначальными метаданными
Сохраняет структуру и взаимосвязи документов

Параметры

Обязательный параметр:

Select Store: выбрать из списка синхронизированных баз

Отображает имя и описание хранилища
Показывает только те, что в статусе SYNC
Обновляется автоматически при изменениях в базе данных

Выходные данные (форматы)

Загрузчик предоставляет два формата вывода:

Вывод документа

Возвращает массив объектов документов, где каждый содержит:

pageContent: фактическое содержимое фрагмента документа
metadata: исходные метаданные документа в формате JSON

Вывод текста

Возвращает объединённую строку, содержащую:

содержимое всех фрагментов документа
разделённое переводами строк
правильно экранированные символы

Интеграция с базой данных

Загрузчик интегрируется с вашей базой данных через:

подключение к источнику данных TypeORM
управление сущностями хранилища документов
хранение и поиск по кускам данных
сохранение метаданных

Структура документа

Каждый загруженный документ содержит:

{
  pageContent: string,    // The actual content
  metadata: {            // Parsed JSON metadata
    // Original document metadata
    // Store-specific information
    // Custom metadata fields
  }
}

Примеры использования

Выбор базы:

{
  "selectedStore": "store-id-123"
}

Доступ к содержимому документов (массив):

// Document output format
[
  {
    "pageContent": "Document content here...",
    "metadata": {
      "source": "original-file.pdf",
      "page": 1,
      "category": "reports"
    }
  }
]

// Text output format
"Document content here...\nNext document content here...\n"

Лучшие практики

Перед использованием убедитесь, что базы синхронизированы
Выбирайте формат вывода исходя из требований
Обрабатывайте метаданные в рабочем процессе
При обработке больших документов учитывайте размер чанков
Следите за производительностью базы данных при больших объёмах данных

Примечания

Только ба в статусе SYNC доступны для выбора
Метаданные автоматом парсятся из JSON
Объекты документов восстанавливаются из чанков
Поддержка обоих форматов вывода — документа и текста
Использует интеграцию через TypeORM
Обрабатывает escape-символы в текстовом выводе
Соблюдает исходную структуру документов

Этот раздел находится в разработке. Мы признательны за любую помощь, которую вы можете предоставить для его завершения.

Custom Document Loader

Пользовательская функция для загрузки документов.

Docx File

Загружает данные из файлов формата DOCX.