Osmi
Загрузчики документов

Microsoft Excel Document Loader

Microsoft Excel — программа для работы с электронными таблицами, содержащая инструменты вычислений, сводные таблицы и язык макросов. Этот модуль обеспечивает возможность загрузки и обработки файлов Excel с использованием SheetJS.

Этот модуль предоставляет продвинчённый загрузчик Excel-документов, который способен:

  • Загружать файлы различных форматов Excel
  • Обрабатывать несколько листов
  • Преобразовывать строки в структурированные документы
  • Работать с различными типами данных
  • Сохранять форматирование ячеек
  • Извлекать метаданные на основе каждой строки
  • Поддерживать вывод с выводом типа данных (типовоф inference)

Входные данные

Обязательные параметры

Excel File: файл(ы) Excel для обработки (.xls, .xlsx, .xlsm, .xlsb)

Опциональные параметры

  • Text Splitter: инструмент для разделения текста для обработки извлечённого содержимого
  • Additional Metadata: JSON-объект с дополнительными метаданными
  • Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить

Выходные данные

  • Document: массив объектов документов, содержащих метаданные и pageContent
  • Text: объединённая строка, сформированная из pageContent всех документов

Особенности

  • Поддержка нескольких форматов
  • Обработка нескольких листов
  • Сохранение типа данных
  • Извлечение метаданных
  • Определение типа данных (inference)
  • Обработка ошибок
  • Эффективная работа с памятью

Поддерживаемые форматы

  • Excel Binary (.xls)
  • Excel Workbook (.xlsx)
  • Excel Macro-Enabled (.xlsm)
  • Excel Binary Workbook (.xlsb)

Обработка типов данных

Поддерживаемые типы:

  • Текст (строки)
  • Числа
  • Даты
  • Булевы значения (true/false)
  • Формулы (вычисляемые значения)
  • Пустые ячейки (null)

Структура документа

Каждый документ содержит:

  • pageContent: форматированное содержимое строки в виде пар ключ-значение
  • metadata:
    • worksheet: название листа
    • rowNum: номер строки
    • Оригинальные значения ячеек по столбцам
    • Дополнительные пользовательские метаданные

Обработка строк

Каждая строка преобразуется в документ с:

  • парами ключ-значение для каждой ячейки
  • сохранёнными заголовками столбцов
  • информацией о типе данных
  • положением строки

Атрибуты метаданных

Основные атрибуты включают:

  • worksheet: имя листа (строка)
  • rowNum: номер строки (число)
  • Динамические атрибуты — на основе заголовков столбцов

Дополнительные заметки

  • Использует SheetJS для парсинга
  • Сохраняет типы данных
  • Обрабатывает несколько листов
  • Определяет типы столбцов (inference)
  • Эффективная обработка памяти
  • Обработка ошибок для некорректных файлов
  • Гибкие форматы вывода
  • Инференс типа данных по столбцам