Загрузчики документов
Microsoft PowerPoint Document Loader
Microsoft PowerPoint — программа для создания и демонстрации презентаций. Этот модуль обеспечивает возможность загрузки и обработки файлов PowerPoint с использованием officeparser.
Этот модуль предоставляет продвинутый загрузчик документов PowerPoint, который способен:
- Загружать презентации PowerPoint
- Извлекать текст со слайдов
- Разделять содержимое по отдельным слайдам
- Обрабатывать нумерацию слайдов
- Обрабатывать метаданные каждого слайда
- Поддерживать несколько форматов слайдов
- Обрабатывать разные разделители слайдов
Входные данные
Обязательные параметры
PowerPoint File: файлы PowerPoint для обработки (.ppt, .pptx)
Опциональные параметры
- Text Splitter: инструмент для разделения текста при обработке извлеченного содержимого
- Additional Metadata: JSON-объект с дополнительными метаданными
- Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить
Выходные данные
- Document: массив объектов документов, содержащих метаданные и pageContent
- Text: объединённая строка из pageContent всех документов
Функции
- Извлечение текста
- Разделение по слайдам
- Обработка метаданных
- Обработка ошибок
- Эффективная обработка памяти
- Использование эвристик для определения слайдов
- Фильтрация содержимого
Методы обнаружения слайдов
Попытка определить слайды по общим шаблонам:
- Метки "Slide X"
- Метки "Page X"
- Номера страниц в формате "X/Y"
- Разделители с помощью подчёркиваний
- Разделители с помощью дефиса
- Множественные переносы строк
Механизмы резервной обработки
Если распознавание шаблонов не срабатывает:
- Разделение по двойным переносам строк
- Рассматривать содержимое как один слайд
Структура документа
Каждый документ содержит:
- pageContent: извлечённый текст слайда
- metadata:
- slideNumber: порядковый номер слайда
- documentType: "powerpoint"
- Дополнительные пользовательские метаданные
Обработка содержимого
- Пустые слайды фильтруются
- Удаление ведущих и конечных пробелов
- Валидация минимальной длины содержимого
- Валидация разумного количества слайдов
Атрибуты метаданных
По умолчанию включают:
- slideNumber: номер слайда (число)
- documentType: тип документа (строка)
- Пользовательские метаданные от входных данных
Примечания
- Использует officeparser для извлечения
- Обрабатывает различные форматы слайдов
- Умное обнаружение слайдов
- Валидация содержимого
- Эффективная обработка памяти
- Обработка ошибок для некорректных файлов
- Гибкие форматы вывода
- Надёжные механизмы резервного заполнения данных

