Загрузчики документов
Microsoft Excel Document Loader
Microsoft Excel — программа для работы с электронными таблицами, содержащая инструменты вычислений, сводные таблицы и язык макросов. Этот модуль обеспечивает возможность загрузки и обработки файлов Excel с использованием SheetJS.
Этот модуль предоставляет продвинчённый загрузчик Excel-документов, который способен:
- Загружать файлы различных форматов Excel
- Обрабатывать несколько листов
- Преобразовывать строки в структурированные документы
- Работать с различными типами данных
- Сохранять форматирование ячеек
- Извлекать метаданные на основе каждой строки
- Поддерживать вывод с выводом типа данных (типовоф inference)
Входные данные
Обязательные параметры
Excel File: файл(ы) Excel для обработки (.xls, .xlsx, .xlsm, .xlsb)
Опциональные параметры
- Text Splitter: инструмент для разделения текста для обработки извлечённого содержимого
- Additional Metadata: JSON-объект с дополнительными метаданными
- Omit Metadata Keys: список ключей метаданных, разделённых запятыми, которые нужно исключить
Выходные данные
- Document: массив объектов документов, содержащих метаданные и pageContent
- Text: объединённая строка, сформированная из pageContent всех документов
Особенности
- Поддержка нескольких форматов
- Обработка нескольких листов
- Сохранение типа данных
- Извлечение метаданных
- Определение типа данных (inference)
- Обработка ошибок
- Эффективная работа с памятью
Поддерживаемые форматы
- Excel Binary (.xls)
- Excel Workbook (.xlsx)
- Excel Macro-Enabled (.xlsm)
- Excel Binary Workbook (.xlsb)
Обработка типов данных
Поддерживаемые типы:
- Текст (строки)
- Числа
- Даты
- Булевы значения (true/false)
- Формулы (вычисляемые значения)
- Пустые ячейки (null)
Структура документа
Каждый документ содержит:
- pageContent: форматированное содержимое строки в виде пар ключ-значение
- metadata:
- worksheet: название листа
- rowNum: номер строки
- Оригинальные значения ячеек по столбцам
- Дополнительные пользовательские метаданные
Обработка строк
Каждая строка преобразуется в документ с:
- парами ключ-значение для каждой ячейки
- сохранёнными заголовками столбцов
- информацией о типе данных
- положением строки
Атрибуты метаданных
Основные атрибуты включают:
- worksheet: имя листа (строка)
- rowNum: номер строки (число)
- Динамические атрибуты — на основе заголовков столбцов
Дополнительные заметки
- Использует SheetJS для парсинга
- Сохраняет типы данных
- Обрабатывает несколько листов
- Определяет типы столбцов (inference)
- Эффективная обработка памяти
- Обработка ошибок для некорректных файлов
- Гибкие форматы вывода
- Инференс типа данных по столбцам

