Загрузчики документов
Google Drive
Google Drive — сервис хранения данных в облаке и синхронизации файлов. Этот модуль обеспечивает возможность загрузки и обработки файлов из Google Drive, поддерживая различные форматы файлов и документы Google Workspace.
Данный модуль предоставляет продвинутый загрузчик документов для Google Drive, который способен:
- Загружать различные типы файлов
- Обрабатывать документы Google Workspace
- Работать с загрузкой по папкам
- Поддерживать общие диски (shared drives)
- Обрабатывать файлы рекурсивно
- Настраивать фильтр типов файлов
- Обеспечивать аутентификацию через OAuth2
Обязательные параметры
- Учётные данные для подключения: OAuth2-данные Google Drive. См. раздел #Google Drive
- Выбор файлов или ID папки: Выберите конкретные файлы или укажите ID папки
Дополнительные параметры
Типы файлов: Типы файлов для загрузки:
- Google Документы
- Google Таблицы
- Google Презентации
- PDF-файлы
- Текстовые файлы
- Документы Word
- PowerPoint
- Excel
- Включать подпапки: Обрабатывать файлы в подпапках
- Включать общие диски: Получать доступ к файлам из общих дисков
- Максимальное количество файлов: Максимальное число файлов для загрузки (по умолчанию: 50)
- Разделитель текста: Средство для обработки извлечённого содержимого
- Дополнительные метаданные: JSON-объект с дополнительной информацией
- Исключить ключи метаданных: Список ключей метаданных через запятую для исключения
Выходные данные
- Документ: Массив объектов документов с метаданными и содержимым страницы (pageContent)
- Текст: Объединённая строка из pageContent всех документов
Поддерживаемые типы файлов
Google Workspace
- Google Документы (application/vnd.google-apps.document)
- Google Таблицы (application/vnd.google-apps.spreadsheet)
- Google Презентации (application/vnd.google-apps.presentation)
Microsoft Office
- Word (.docx)
- Excel (.xlsx)
- PowerPoint (.pptx)
Другие форматы
- PDF (.pdf)
- Текстовые файлы (.txt)
Особенности
- Аутентификация OAuth2
- Поддержка нескольких типов файлов
- Обработка папок
- Доступ к общим дискам
- Фильтрация по типам файлов
- Поддержка разделения текста
- Настройка метаданных
- Обработка ошибок
Методы загрузки
Режим выбора файла
- Прямая выборка файла
- Поддержка нескольких файлов
- Фильтрация по типу файла
- Сохранение метаданных
Режим папки
- Рекурсивная обработка папок
- Поддержка подпапок
- Фильтрация по типам файлов
- Обработка пакетами
Структура документа
Каждый документ содержит:
pageContent: извлечённое содержимое файла metadata:
- fileName: исходное название файла
- fileType: MIME-тип файла
- fileId: ID файла в Google Drive
- source: путь/URL файла
- Дополнительные пользовательские метаданные
Примечания
- Требуется аутентификация OAuth2
- Обработка ограничений по скорости (Rate limiting)
- Поддержка больших файлов
- Управление временными файлами
- Эффективная обработка с точки зрения памяти
- Обработка ошибок для недопустимых файлов
- Автоматическое обновление токенов

