Загрузчики документов
File
Универсальный загрузчик файлов, позволяющий загружать и обрабатывать документы различных форматов, таких как TXT, JSON, CSV, PDF, DOCX, XLSX, PPTX и др.
Что делает этот модуль:
- Обеспечивает единый интерфейс для загрузки различных типов файлов
- Поддерживает загрузку как base64-кодированных, так и файлов из хранилищ
- Встроенные опции для обработки PDF, включая постраничное разделение и OCR
- Полная поддержка JSON и JSONL с возможностью извлечения по указателям
- Возможность разделения текста с помощью Text Splitter-ов
- Настройка извлечения метаданных
- Интеграция с системами хранения данных
Входные параметры
Обязательные параметры
- File: сам файл или файлы для обработки (поддерживаются разные форматы, множественный ввод)
Дополнительные параметры
- Text Splitter: инструмент для деления извлечённого текста
- PDF Usage: режим обработки PDF —
- "One document per page" (по одной странице)
- "One document per file" (весь файл как один документ)
- Use Legacy Build: использовать устаревшую сборку для совместимости с некоторыми PDF
- JSONL Pointer Extraction: название узла или ключа для извлечения данных из JSONL-файлов
- Additional Metadata: JSON-объект с дополнительными метаданными
- Omit Metadata Keys: список ключей метаданных, которые нужно исключить (через запятую)
Выходные данные
- Document: массив объектов с полями pageContent и метаданными
- Text: объединённый текст всех документов
Поддерживаемые форматы файлов
- Текстовые (.txt)
- JSON (.json)
- JSONL (.jsonl)
- CSV (.csv)
- PDF (.pdf)
- Word (.docx)
- Excel (.xlsx, .xls)
- PowerPoint (.pptx, .ppt)
- И другие
##Функции
- Поддержка множества форматов
- Интеграция с хранилищем
- Опции обработки PDF
- Извлечение с помощью JSON pointer
- Поддержка разделения текста
- Настройка метаданных
- Обработка ошибок
- Обнаружение типа MIME
Опции обработки файла
Обработка PDF
- Разделение по страницам
- Режим одного документа
- Поддержка устаревших версий сборки
- Совместимость с OCR
Обработка JSON/JSONL
- Извлечение по указателю (pointer-based)
- Работа с структурированными данными
- Обработка массивов
- Поддержка вложенных объектов
Примечания
- Автоматически определяет тип файла
- Обрабатывает несколько файлов одновременно
- Поддержка интеграции с файловым хранилищем
- Сохраняет метаданные файла
- Эффективно работает с большими файлами
- Обработка ошибок при неправильных файлах
- Эффективная по памяти обработка

