Загрузчики документов
Microsoft Word Document Loader
Microsoft Word — программа для обработки текстовых документов, предназначенная для создания и редактирования текстовых файлов. Этот модуль предоставляет функциональность для загрузки и обработки документов Word с использованием officeparser.
Этот модуль обеспечивает продвинутый загрузчик документов Word, который может:
- Загружать документы Word
- Извлекать текстовое содержимое
- Разделять содержимое на разделы
- Обрабатывать нумерацию страниц
- Обрабатывать метаданные каждого раздела
- Поддерживать различные форматы разделов
- Обрабатывать различные разделители разделов
Входные данные
Обязательные параметры
Word File: файл(ы) Word для обработки (.doc, .docx)
Опциональные параметры
- Text Splitter: средство для разделения текста при обработке извлечённого содержимого
- Additional Metadata: JSON-объект с дополнительными метаданными
- Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить
Выходные данные
- Document: массив объектов, содержащих метаданные и pageContent
- Text: объединённая строка, сформированная из pageContent всех документов
Функции
- Извлечение текста
- Разделение по разделам
- Обработка метаданных
- Обработка ошибок
- Эффективная в использовании память обработка
- Интеллектуальное обнаружение разделов
- Фильтрация содержимого
Методы обнаружения разделов
Распознавание шаблонов Загрузчик пытается определить разделы, используя популярные шаблоны:
- Маркеры "Page X"
- Маркеры "Section X"
- Маркеры "Chapter X"
- Нумерованные разделы (например, "1. ", "2. ")
- Заголовки В ВЕРХНЕМ РЕГИСТРЕ
- Длинные разделители с символами нижнего подчёркивания
- Длинные разделители с длинным дефисом
Резервные механизмы
Если распознавание шаблонов не сработает:
- Разделение по нескольким переводам строки (новым линиям)
- Разделение по двойным переводам строки
- Обработка содержимого как одного раздела
Структура документа
Каждый документ содержит:
- pageContent: извлечённый текст раздела
- metadata:
- documentType: "word"
- pageNumber: последовательный номер раздела
- Дополнительные пользовательские метаданные
Обработка содержимого
- Фильтрация пустых разделов
- Удаление ведущих и конечных пробелов
- Валидация минимальной длины содержимого
- Валидация разумного количества разделов
Атрибуты метаданных
По умолчанию включают:
- documentType: тип документа (строка)
- pageCount: количество страниц/разделов (число)
- Пользовательские метаданные из входных данных
Примечания
- Использует officeparser для извлечения
- Обрабатывает различные форматы документов
- Интеллектуальное обнаружение разделов
- Валидация содержимого
- Эффективная память при обработке
- Обработка ошибок для некорректных файлов
- Гибкие форматы вывода
- Надёжные резервные механизмы

