Osmi
Загрузчики документов

EPUB File Loader

Загружает и обрабатывает EPUB (электронную книгу) в рамках вашего рабочего процесса.

Данный модуль предоставляет полноценный загрузчик EPUB-документов, который позволяет:

  • Загружать один или несколько EPUB-файлов
  • Поддерживать работу как с base64-кодированными файлами, так и с файлами из хранилищ
  • Извлекать содержимое по главам или целым файлам
  • Обрабатывать контент с помощью текстовыхSplitter-ов
  • Извлекать метаданные книги и глав
  • Управлять временными файлами для обработки

Входные параметры

Обязательные параметры

  • EPUB File: одно или несколько EPUB файла, расширение .epub.
  • Использование: Выберите между двумя режимами развития:
    • Одна документ на главу: разделение по главам (поддержка отдельных документов для каждой главы).
    • Один документ на весь файл: вся книга в одном документе.

Дополнительные параметры (необязательные)

  • Text Splitter: инструмент для разделения извлечённого контента (например, по разделам, по главам, по символам).
  • Additional Metadata: JSON объект с дополнительными метаданными, которые можно добавить к каждому документу.
  • Omit Metadata Keys: список ключей метаданных, которые необходимо исключить (через запятую).

Выходные данные

  • Document: массив объектов, каждый из которых содержит pageContent и метаданные.
  • Text: объединённый строковый результат, содержащий весь текст из документов, разделённый переносами строк.

Особенности и возможности

  • Обработка нескольких файлов одновременно
  • Распределение контента по главам (Chapter-level splitting)
  • Обработка целых файлов как единых документов (File-level processing)
  • Интеграция с системами хранения данных
  • Конфигурируемое управление метаданными и разделением текста
  • Временное хранение и очистка временных файлов
  • Обработка ошибок (например, некорректных EPUB-файлов)
  • Поддержка работы с base64-кодированными файлами
  • Эффективное использование памяти

Режимы обработки

Режим по главам

  • Создает отдельные документы для каждой главы
  • Сохраняет структуру глав
  • Сохраняет метаданные глав
  • Лучше подходит для подробного анализа

Режим по файлу

  • Обрабатывает весь файл как один документ
  • Сохраняет общую структуру
  • Проще организует документ
  • Лучше подходит для обзора и анализа

Примечания:

  • Поддерживает как локальные, так и файлы на основе хранилища
  • Обрабатывает содержимое, закодированное в base64
  • Автоматически очищает временные файлы
  • Сохраняет структуру документа
  • Поддерживает добавление пользовательских метаданных
  • Обработка ошибок при неправильных файлах
  • Эффективная по памяти обработка