Osmi
Загрузчики документов

Docx File

Загружает данные из файлов формата DOCX.

Этот модуль позволяет работать с документами Microsoft Word (формат DOCX), широко используемым для создания и редактирования текстовых документов. Он обеспечивает функциональность для загрузки и обработки одного или нескольких DOCX-файлов в рамках вашего рабочего процесса.

Что делает этот модуль:

  • Загружает один или несколько DOCX-файлов
  • Поддерживает загрузку как в виде base64, так и из хранилищ файлов
  • Извлекает текстовое содержимое с метаданными
  • Интегрируется с модулями разделения текста для обработки контента
  • Позволяет управлять пользовательскими метаданными

Входные параметры

  • DOCX File (обязательный): один или несколько файлов формата .docx (может быть в виде base64 или файла из хранилища)
  • Text Splitter (необязательный): инструмент для разделения извлеченного текста на части
  • Additional Metadata (необязательный): JSON объект с дополнительными метаданными для добавления к документам
  • Omit Metadata Keys (необязательный): список ключей метаданных, которые следует исключить из автоматических метаданных (через запятую)

Выходные данные

  • Document: массив объектов документов, содержащих метаданные и pageContent — текстовое содержание страницы или части документа.
  • Text: объединённая строка, содержащая текст всех извлечённых страниц или частей документов, объединённую через переносы строк.

Ключевые особенности

  • Обработка нескольких файлов одновременно
  • Гибкое разделение текста (поддержка различных стратегий разделения)
  • Настраиваемое управление метаданными
  • Поддержка интеграции со сторонними системами хранения данных
  • Работа с файлами в виде base64 или blob-объектов