Osmi
Загрузчики документов

Google Drive

Google Drive — сервис хранения данных в облаке и синхронизации файлов. Этот модуль обеспечивает возможность загрузки и обработки файлов из Google Drive, поддерживая различные форматы файлов и документы Google Workspace.

Данный модуль предоставляет продвинутый загрузчик документов для Google Drive, который способен:

  • Загружать различные типы файлов
  • Обрабатывать документы Google Workspace
  • Работать с загрузкой по папкам
  • Поддерживать общие диски (shared drives)
  • Обрабатывать файлы рекурсивно
  • Настраивать фильтр типов файлов
  • Обеспечивать аутентификацию через OAuth2

Обязательные параметры

  • Учётные данные для подключения: OAuth2-данные Google Drive. См. раздел #Google Drive
  • Выбор файлов или ID папки: Выберите конкретные файлы или укажите ID папки

Дополнительные параметры

Типы файлов: Типы файлов для загрузки:

  • Google Документы
  • Google Таблицы
  • Google Презентации
  • PDF-файлы
  • Текстовые файлы
  • Документы Word
  • PowerPoint
  • Excel
  • Включать подпапки: Обрабатывать файлы в подпапках
  • Включать общие диски: Получать доступ к файлам из общих дисков
  • Максимальное количество файлов: Максимальное число файлов для загрузки (по умолчанию: 50)
  • Разделитель текста: Средство для обработки извлечённого содержимого
  • Дополнительные метаданные: JSON-объект с дополнительной информацией
  • Исключить ключи метаданных: Список ключей метаданных через запятую для исключения

Выходные данные

  • Документ: Массив объектов документов с метаданными и содержимым страницы (pageContent)
  • Текст: Объединённая строка из pageContent всех документов

Поддерживаемые типы файлов

Google Workspace

  • Google Документы (application/vnd.google-apps.document)
  • Google Таблицы (application/vnd.google-apps.spreadsheet)
  • Google Презентации (application/vnd.google-apps.presentation)

Microsoft Office

  • Word (.docx)
  • Excel (.xlsx)
  • PowerPoint (.pptx)

Другие форматы

  • PDF (.pdf)
  • Текстовые файлы (.txt)

Особенности

  • Аутентификация OAuth2
  • Поддержка нескольких типов файлов
  • Обработка папок
  • Доступ к общим дискам
  • Фильтрация по типам файлов
  • Поддержка разделения текста
  • Настройка метаданных
  • Обработка ошибок

Методы загрузки

Режим выбора файла

  • Прямая выборка файла
  • Поддержка нескольких файлов
  • Фильтрация по типу файла
  • Сохранение метаданных

Режим папки

  • Рекурсивная обработка папок
  • Поддержка подпапок
  • Фильтрация по типам файлов
  • Обработка пакетами

Структура документа

Каждый документ содержит:

pageContent: извлечённое содержимое файла metadata:

  • fileName: исходное название файла
  • fileType: MIME-тип файла
  • fileId: ID файла в Google Drive
  • source: путь/URL файла
  • Дополнительные пользовательские метаданные

Примечания

  • Требуется аутентификация OAuth2
  • Обработка ограничений по скорости (Rate limiting)
  • Поддержка больших файлов
  • Управление временными файлами
  • Эффективная обработка с точки зрения памяти
  • Обработка ошибок для недопустимых файлов
  • Автоматическое обновление токенов