Загрузчики документов
EPUB File Loader
Загружает и обрабатывает EPUB (электронную книгу) в рамках вашего рабочего процесса.
Данный модуль предоставляет полноценный загрузчик EPUB-документов, который позволяет:
- Загружать один или несколько EPUB-файлов
- Поддерживать работу как с base64-кодированными файлами, так и с файлами из хранилищ
- Извлекать содержимое по главам или целым файлам
- Обрабатывать контент с помощью текстовыхSplitter-ов
- Извлекать метаданные книги и глав
- Управлять временными файлами для обработки
Входные параметры
Обязательные параметры
- EPUB File: одно или несколько EPUB файла, расширение .epub.
- Использование: Выберите между двумя режимами развития:
- Одна документ на главу: разделение по главам (поддержка отдельных документов для каждой главы).
- Один документ на весь файл: вся книга в одном документе.
Дополнительные параметры (необязательные)
- Text Splitter: инструмент для разделения извлечённого контента (например, по разделам, по главам, по символам).
- Additional Metadata: JSON объект с дополнительными метаданными, которые можно добавить к каждому документу.
- Omit Metadata Keys: список ключей метаданных, которые необходимо исключить (через запятую).
Выходные данные
- Document: массив объектов, каждый из которых содержит pageContent и метаданные.
- Text: объединённый строковый результат, содержащий весь текст из документов, разделённый переносами строк.
Особенности и возможности
- Обработка нескольких файлов одновременно
- Распределение контента по главам (Chapter-level splitting)
- Обработка целых файлов как единых документов (File-level processing)
- Интеграция с системами хранения данных
- Конфигурируемое управление метаданными и разделением текста
- Временное хранение и очистка временных файлов
- Обработка ошибок (например, некорректных EPUB-файлов)
- Поддержка работы с base64-кодированными файлами
- Эффективное использование памяти
Режимы обработки
Режим по главам
- Создает отдельные документы для каждой главы
- Сохраняет структуру глав
- Сохраняет метаданные глав
- Лучше подходит для подробного анализа
Режим по файлу
- Обрабатывает весь файл как один документ
- Сохраняет общую структуру
- Проще организует документ
- Лучше подходит для обзора и анализа
Примечания:
- Поддерживает как локальные, так и файлы на основе хранилища
- Обрабатывает содержимое, закодированное в base64
- Автоматически очищает временные файлы
- Сохраняет структуру документа
- Поддерживает добавление пользовательских метаданных
- Обработка ошибок при неправильных файлах
- Эффективная по памяти обработка

