Загрузчики документов
База документов
Загружает данные из предварительно настроенных хранилищ документов.
Этот загрузчик позволяет получать данные из заранее настроенных баз документов в вашей базе данных. Он предоставляет удобный способ доступа и использования ранее обработанных и сохранённых документов в ваших рабочих процессах.
Основные возможности
- Загрузка документов из синхронизированных база документов
- Автоматическая обработка метаданных
- Поддержка нескольких форматов вывода
- Асинхронный выбор хранилища
- Интеграция с базой данных
- Получение документов по частям (чанками)
- Поддержка метаданных в формате JSON
Как работает
- Выбор базы:
- Отображает все доступные базы в статусе SYNC
- Предоставляет информацию о базе, включая название и описание
- Позволяет выбрать только синхронизированные баз
- Получение документов:
- Загружает чанки документов из выбранной базы
- Восстанавливает документы с первоначальными метаданными
- Сохраняет структуру и взаимосвязи документов
Параметры
Обязательный параметр:
Select Store: выбрать из списка синхронизированных баз
- Отображает имя и описание хранилища
- Показывает только те, что в статусе SYNC
- Обновляется автоматически при изменениях в базе данных
Выходные данные (форматы)
Загрузчик предоставляет два формата вывода:
Вывод документа
Возвращает массив объектов документов, где каждый содержит:
- pageContent: фактическое содержимое фрагмента документа
- metadata: исходные метаданные документа в формате JSON
Вывод текста
Возвращает объединённую строку, содержащую:
- содержимое всех фрагментов документа
- разделённое переводами строк
- правильно экранированные символы
Интеграция с базой данных
Загрузчик интегрируется с вашей базой данных через:
- подключение к источнику данных TypeORM
- управление сущностями хранилища документов
- хранение и поиск по кускам данных
- сохранение метаданных
Структура документа
Каждый загруженный документ содержит:
{
pageContent: string, // The actual content
metadata: { // Parsed JSON metadata
// Original document metadata
// Store-specific information
// Custom metadata fields
}
}
Примеры использования
Выбор базы:
{
"selectedStore": "store-id-123"
}
Доступ к содержимому документов (массив):
// Document output format
[
{
"pageContent": "Document content here...",
"metadata": {
"source": "original-file.pdf",
"page": 1,
"category": "reports"
}
}
]
// Text output format
"Document content here...\nNext document content here...\n"
Лучшие практики
- Перед использованием убедитесь, что базы синхронизированы
- Выбирайте формат вывода исходя из требований
- Обрабатывайте метаданные в рабочем процессе
- При обработке больших документов учитывайте размер чанков
- Следите за производительностью базы данных при больших объёмах данных
Примечания
- Только ба в статусе SYNC доступны для выбора
- Метаданные автоматом парсятся из JSON
- Объекты документов восстанавливаются из чанков
- Поддержка обоих форматов вывода — документа и текста
- Использует интеграцию через TypeORM
- Обрабатывает escape-символы в текстовом выводе
- Соблюдает исходную структуру документов
Этот раздел находится в разработке. Мы признательны за любую помощь, которую вы можете предоставить для его завершения.

