Osmi
Загрузчики документов

Microsoft PowerPoint Document Loader

Microsoft PowerPoint — программа для создания и демонстрации презентаций. Этот модуль обеспечивает возможность загрузки и обработки файлов PowerPoint с использованием officeparser.

Этот модуль предоставляет продвинутый загрузчик документов PowerPoint, который способен:

  • Загружать презентации PowerPoint
  • Извлекать текст со слайдов
  • Разделять содержимое по отдельным слайдам
  • Обрабатывать нумерацию слайдов
  • Обрабатывать метаданные каждого слайда
  • Поддерживать несколько форматов слайдов
  • Обрабатывать разные разделители слайдов

Входные данные

Обязательные параметры

PowerPoint File: файлы PowerPoint для обработки (.ppt, .pptx)

Опциональные параметры

  • Text Splitter: инструмент для разделения текста при обработке извлеченного содержимого
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить

Выходные данные

  • Document: массив объектов документов, содержащих метаданные и pageContent
  • Text: объединённая строка из pageContent всех документов

Функции

  • Извлечение текста
  • Разделение по слайдам
  • Обработка метаданных
  • Обработка ошибок
  • Эффективная обработка памяти
  • Использование эвристик для определения слайдов
  • Фильтрация содержимого

Методы обнаружения слайдов

Попытка определить слайды по общим шаблонам:

  • Метки "Slide X"
  • Метки "Page X"
  • Номера страниц в формате "X/Y"
  • Разделители с помощью подчёркиваний
  • Разделители с помощью дефиса
  • Множественные переносы строк

Механизмы резервной обработки

Если распознавание шаблонов не срабатывает:

  1. Разделение по двойным переносам строк
  2. Рассматривать содержимое как один слайд

Структура документа

Каждый документ содержит:

  • pageContent: извлечённый текст слайда
  • metadata:
    • slideNumber: порядковый номер слайда
    • documentType: "powerpoint"
    • Дополнительные пользовательские метаданные

Обработка содержимого

  • Пустые слайды фильтруются
  • Удаление ведущих и конечных пробелов
  • Валидация минимальной длины содержимого
  • Валидация разумного количества слайдов

Атрибуты метаданных

По умолчанию включают:

  • slideNumber: номер слайда (число)
  • documentType: тип документа (строка)
  • Пользовательские метаданные от входных данных

Примечания

  • Использует officeparser для извлечения
  • Обрабатывает различные форматы слайдов
  • Умное обнаружение слайдов
  • Валидация содержимого
  • Эффективная обработка памяти
  • Обработка ошибок для некорректных файлов
  • Гибкие форматы вывода
  • Надёжные механизмы резервного заполнения данных