Osmi
Загрузчики документов

Folder with Files Loader

Модуль Folder Loader обеспечивает возможность загрузки и обработки нескольких файлов из директории. Поддерживаются широкий спектр форматов файлов, а также рекурсивная обработка подпапок.

Основные возможности модуля:

  • Загружает несколько типов файлов одновременно
  • Обрабатывает папки рекурсивно
  • Работает с различными форматами документов
  • Поддерживает специальные опции для PDF
  • Работа с структурированными данными
  • Настройка извлечения метаданных
  • Поддержка разбиения текста

Входные параметры

Обязательные параметры

  • Folder Path: Путь к директории с файлами
  • Recursive: Обрабатывать ли подпапки (да/нет)

Опциональные параметры

  • Text Splitter: Инструмент для разбиения извлечённого текста
  • PDF Usage: Варианты обработки PDF:
    • Один документ на страницу
    • Один документ на файл
  • JSONL Pointer Extraction: Имя указателя для JSONL файлов
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: Список ключей метаданных через запятую для исключения

Выходные данные

  • Document: Массив объектов с метаданными и содержимым (pageContent)
  • Text: Объединённая строка, склеенная из pageContent всех документов

Поддерживаемые типы файлов

Документы

  • PDF (.pdf)
  • Word (.doc, .docx)
  • Excel (.xls, .xlsx, .xlsm, .xlsb)
  • PowerPoint (.ppt, .pptx)
  • Текст (.txt)
  • Markdown (.md, .markdown)
  • HTML (.html)
  • XML (.xml)

Файлы данных

  • JSON (.json)
  • JSONL (.jsonl)
  • CSV (.csv)

Языки программирования

  • Python (.py, .python)
  • JavaScript (.js)
  • TypeScript (.ts)
  • Java (.java)
  • C/C++ (.c, .cpp, .h)
  • C# (.cs)
  • Ruby (.rb, .ruby)
  • Go (.go)
  • PHP (.php)
  • Swift (.swift)
  • Rust (.rs)
  • Scala (.scala, .sc)
  • Kotlin (.kt)
  • Solidity (.sol)

Веб-технологии

  • CSS (.css)
  • SCSS (.scss)
  • LESS (.less)
  • SQL (.sql)
  • Protocol Buffers (.proto)

Основные функции

  • Поддержка множества форматов файлов
  • Рекурсивная обработка директорий
  • Опции обработки PDF
  • Работа с структурированными данными
  • Поддержка разбиения текста
  • Настройка метаданных
  • Обработка ошибок и исключительных ситуаций

Примечания

  • Автоматически распознаёт типы файлов
  • Обрабатывает большие директории
  • Сохраняет метаданные файлов
  • Эффективная по памяти обработка
  • Поддержка пользовательских расширений файлов
  • Обработка ошибок для недопустимых файлов
  • Гибкие форматы вывода