Загрузчики документов
Json File
Load data from JSON files.
JSON (JavaScript Object Notation) — лёгкий формат обмена данными, который легко читается и пишется человеком и легко обрабатывается и генерируется машиной. Этот модуль предоставляет расширенную функциональность для загрузки и обработки JSON-файлов в вашем рабочем процессе.
Данный модуль реализует продвинутый загрузчик JSON-документов, который может:
- Загружать один или несколько JSON-файлов
- Поддерживать файлы, закодированные в base64, а также файлы из хранилища
- Извлекать конкретные данные с помощью JSON-путей (JSON pointers)
- Обеспечивать динамическое извлечение метаданных
- Обрабатывать вложенные структуры JSON
Входные данные
- JSON File: JSON-файл(ы) для обработки (.json обязательно в расширении)
- Text Splitter (опционально): разделитель текста для обработки извлечённого содержимого
- Pointers Extraction (опционально): список JSON-путей, разделённых запятыми, для извлечения конкретных данных
- Additional Metadata (опционально): JSON-объект для динамического извлечения метаданных из документа
- Omit Metadata Keys (опционально): список ключей метаданных, разделённый запятыми, которые нужно исключить из стандартных метаданных
Выходные данные
- Document: массив объектов документов с метаданными и pageContent
- Text: объединённая строка, составленная из pageContent всех документов
Особенности
- Поддержка обработки нескольких файлов
- Извлечение данных с использованием JSON-путей
- Динамическое сопоставление метаданных
- Работа с вложенными структурами JSON
- Интеграция с хранилищами данных
- Поддержка base64 и Blob файлов
Пример использования
Для JSON-документа, например:
[
{
"url": "https://www.google.com",
"body": "This is body 1"
},
{
"url": "https://www.yahoo.com",
"body": "This is body 2"
}
]
Вы можете извлечь конкретные поля в виде метаданных, используя:
"source": "/url"
Это добавит значение поля url в метаданные под ключом "source" для каждого документа.

