Osmi
Загрузчики документов

File

Универсальный загрузчик файлов, позволяющий загружать и обрабатывать документы различных форматов, таких как TXT, JSON, CSV, PDF, DOCX, XLSX, PPTX и др.

Что делает этот модуль:

  • Обеспечивает единый интерфейс для загрузки различных типов файлов
  • Поддерживает загрузку как base64-кодированных, так и файлов из хранилищ
  • Встроенные опции для обработки PDF, включая постраничное разделение и OCR
  • Полная поддержка JSON и JSONL с возможностью извлечения по указателям
  • Возможность разделения текста с помощью Text Splitter-ов
  • Настройка извлечения метаданных
  • Интеграция с системами хранения данных

Входные параметры

Обязательные параметры

  • File: сам файл или файлы для обработки (поддерживаются разные форматы, множественный ввод)

Дополнительные параметры

  • Text Splitter: инструмент для деления извлечённого текста
  • PDF Usage: режим обработки PDF —
  • "One document per page" (по одной странице)
  • "One document per file" (весь файл как один документ)
  • Use Legacy Build: использовать устаревшую сборку для совместимости с некоторыми PDF
  • JSONL Pointer Extraction: название узла или ключа для извлечения данных из JSONL-файлов
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: список ключей метаданных, которые нужно исключить (через запятую)

Выходные данные

  • Document: массив объектов с полями pageContent и метаданными
  • Text: объединённый текст всех документов

Поддерживаемые форматы файлов

  • Текстовые (.txt)
  • JSON (.json)
  • JSONL (.jsonl)
  • CSV (.csv)
  • PDF (.pdf)
  • Word (.docx)
  • Excel (.xlsx, .xls)
  • PowerPoint (.pptx, .ppt)
  • И другие

##Функции

  • Поддержка множества форматов
  • Интеграция с хранилищем
  • Опции обработки PDF
  • Извлечение с помощью JSON pointer
  • Поддержка разделения текста
  • Настройка метаданных
  • Обработка ошибок
  • Обнаружение типа MIME

Опции обработки файла

Обработка PDF

  • Разделение по страницам
  • Режим одного документа
  • Поддержка устаревших версий сборки
  • Совместимость с OCR

Обработка JSON/JSONL

  • Извлечение по указателю (pointer-based)
  • Работа с структурированными данными
  • Обработка массивов
  • Поддержка вложенных объектов

Примечания

  • Автоматически определяет тип файла
  • Обрабатывает несколько файлов одновременно
  • Поддержка интеграции с файловым хранилищем
  • Сохраняет метаданные файла
  • Эффективно работает с большими файлами
  • Обработка ошибок при неправильных файлах
  • Эффективная по памяти обработка