Загрузчики документов

Microsoft Word Document Loader

Microsoft Word — программа для обработки текстовых документов, предназначенная для создания и редактирования текстовых файлов. Этот модуль предоставляет функциональность для загрузки и обработки документов Word с использованием officeparser.

Этот модуль обеспечивает продвинутый загрузчик документов Word, который может:

Загружать документы Word
Извлекать текстовое содержимое
Разделять содержимое на разделы
Обрабатывать нумерацию страниц
Обрабатывать метаданные каждого раздела
Поддерживать различные форматы разделов
Обрабатывать различные разделители разделов

Входные данные

Обязательные параметры

Word File: файл(ы) Word для обработки (.doc, .docx)

Опциональные параметры

Text Splitter: средство для разделения текста при обработке извлечённого содержимого
Additional Metadata: JSON-объект с дополнительными метаданными
Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить

Выходные данные

Document: массив объектов, содержащих метаданные и pageContent
Text: объединённая строка, сформированная из pageContent всех документов

Функции

Извлечение текста
Разделение по разделам
Обработка метаданных
Обработка ошибок
Эффективная в использовании память обработка
Интеллектуальное обнаружение разделов
Фильтрация содержимого

Методы обнаружения разделов

Распознавание шаблонов Загрузчик пытается определить разделы, используя популярные шаблоны:

Маркеры "Page X"
Маркеры "Section X"
Маркеры "Chapter X"
Нумерованные разделы (например, "1. ", "2. ")
Заголовки В ВЕРХНЕМ РЕГИСТРЕ
Длинные разделители с символами нижнего подчёркивания
Длинные разделители с длинным дефисом

Резервные механизмы

Если распознавание шаблонов не сработает:

Разделение по нескольким переводам строки (новым линиям)
Разделение по двойным переводам строки
Обработка содержимого как одного раздела

Структура документа

Каждый документ содержит:

pageContent: извлечённый текст раздела
metadata:
- documentType: "word"
- pageNumber: последовательный номер раздела
- Дополнительные пользовательские метаданные

Обработка содержимого

Фильтрация пустых разделов
Удаление ведущих и конечных пробелов
Валидация минимальной длины содержимого
Валидация разумного количества разделов

Атрибуты метаданных

По умолчанию включают:

documentType: тип документа (строка)
pageCount: количество страниц/разделов (число)
Пользовательские метаданные из входных данных

Примечания

Использует officeparser для извлечения
Обрабатывает различные форматы документов
Интеллектуальное обнаружение разделов
Валидация содержимого
Эффективная память при обработке
Обработка ошибок для некорректных файлов
Гибкие форматы вывода
Надёжные резервные механизмы

Microsoft PowerPoint Document Loader

Notion