Загрузчики документов
Docx File
Загружает данные из файлов формата DOCX.
Этот модуль позволяет работать с документами Microsoft Word (формат DOCX), широко используемым для создания и редактирования текстовых документов. Он обеспечивает функциональность для загрузки и обработки одного или нескольких DOCX-файлов в рамках вашего рабочего процесса.
Что делает этот модуль:
- Загружает один или несколько DOCX-файлов
- Поддерживает загрузку как в виде base64, так и из хранилищ файлов
- Извлекает текстовое содержимое с метаданными
- Интегрируется с модулями разделения текста для обработки контента
- Позволяет управлять пользовательскими метаданными
Входные параметры
- DOCX File (обязательный): один или несколько файлов формата .docx (может быть в виде base64 или файла из хранилища)
- Text Splitter (необязательный): инструмент для разделения извлеченного текста на части
- Additional Metadata (необязательный): JSON объект с дополнительными метаданными для добавления к документам
- Omit Metadata Keys (необязательный): список ключей метаданных, которые следует исключить из автоматических метаданных (через запятую)
Выходные данные
- Document: массив объектов документов, содержащих метаданные и pageContent — текстовое содержание страницы или части документа.
- Text: объединённая строка, содержащая текст всех извлечённых страниц или частей документов, объединённую через переносы строк.
Ключевые особенности
- Обработка нескольких файлов одновременно
- Гибкое разделение текста (поддержка различных стратегий разделения)
- Настраиваемое управление метаданными
- Поддержка интеграции со сторонними системами хранения данных
- Работа с файлами в виде base64 или blob-объектов

