Osmi
Загрузчики документов

Microsoft Word Document Loader

Microsoft Word — программа для обработки текстовых документов, предназначенная для создания и редактирования текстовых файлов. Этот модуль предоставляет функциональность для загрузки и обработки документов Word с использованием officeparser.

Этот модуль обеспечивает продвинутый загрузчик документов Word, который может:

  • Загружать документы Word
  • Извлекать текстовое содержимое
  • Разделять содержимое на разделы
  • Обрабатывать нумерацию страниц
  • Обрабатывать метаданные каждого раздела
  • Поддерживать различные форматы разделов
  • Обрабатывать различные разделители разделов

Входные данные

Обязательные параметры

Word File: файл(ы) Word для обработки (.doc, .docx)

Опциональные параметры

  • Text Splitter: средство для разделения текста при обработке извлечённого содержимого
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить

Выходные данные

  • Document: массив объектов, содержащих метаданные и pageContent
  • Text: объединённая строка, сформированная из pageContent всех документов

Функции

  • Извлечение текста
  • Разделение по разделам
  • Обработка метаданных
  • Обработка ошибок
  • Эффективная в использовании память обработка
  • Интеллектуальное обнаружение разделов
  • Фильтрация содержимого

Методы обнаружения разделов

Распознавание шаблонов Загрузчик пытается определить разделы, используя популярные шаблоны:

  • Маркеры "Page X"
  • Маркеры "Section X"
  • Маркеры "Chapter X"
  • Нумерованные разделы (например, "1. ", "2. ")
  • Заголовки В ВЕРХНЕМ РЕГИСТРЕ
  • Длинные разделители с символами нижнего подчёркивания
  • Длинные разделители с длинным дефисом

Резервные механизмы

Если распознавание шаблонов не сработает:

  1. Разделение по нескольким переводам строки (новым линиям)
  2. Разделение по двойным переводам строки
  3. Обработка содержимого как одного раздела

Структура документа

Каждый документ содержит:

  • pageContent: извлечённый текст раздела
  • metadata:
    • documentType: "word"
    • pageNumber: последовательный номер раздела
    • Дополнительные пользовательские метаданные

Обработка содержимого

  • Фильтрация пустых разделов
  • Удаление ведущих и конечных пробелов
  • Валидация минимальной длины содержимого
  • Валидация разумного количества разделов

Атрибуты метаданных

По умолчанию включают:

  • documentType: тип документа (строка)
  • pageCount: количество страниц/разделов (число)
  • Пользовательские метаданные из входных данных

Примечания

  • Использует officeparser для извлечения
  • Обрабатывает различные форматы документов
  • Интеллектуальное обнаружение разделов
  • Валидация содержимого
  • Эффективная память при обработке
  • Обработка ошибок для некорректных файлов
  • Гибкие форматы вывода
  • Надёжные резервные механизмы