Osmi
Загрузчики документов

Json File

Load data from JSON files.

JSON (JavaScript Object Notation) — лёгкий формат обмена данными, который легко читается и пишется человеком и легко обрабатывается и генерируется машиной. Этот модуль предоставляет расширенную функциональность для загрузки и обработки JSON-файлов в вашем рабочем процессе.

Данный модуль реализует продвинутый загрузчик JSON-документов, который может:

  • Загружать один или несколько JSON-файлов
  • Поддерживать файлы, закодированные в base64, а также файлы из хранилища
  • Извлекать конкретные данные с помощью JSON-путей (JSON pointers)
  • Обеспечивать динамическое извлечение метаданных
  • Обрабатывать вложенные структуры JSON

Входные данные

  • JSON File: JSON-файл(ы) для обработки (.json обязательно в расширении)
  • Text Splitter (опционально): разделитель текста для обработки извлечённого содержимого
  • Pointers Extraction (опционально): список JSON-путей, разделённых запятыми, для извлечения конкретных данных
  • Additional Metadata (опционально): JSON-объект для динамического извлечения метаданных из документа
  • Omit Metadata Keys (опционально): список ключей метаданных, разделённый запятыми, которые нужно исключить из стандартных метаданных

Выходные данные

  • Document: массив объектов документов с метаданными и pageContent
  • Text: объединённая строка, составленная из pageContent всех документов

Особенности

  • Поддержка обработки нескольких файлов
  • Извлечение данных с использованием JSON-путей
  • Динамическое сопоставление метаданных
  • Работа с вложенными структурами JSON
  • Интеграция с хранилищами данных
  • Поддержка base64 и Blob файлов

Пример использования

Для JSON-документа, например:

[
    {
        "url": "https://www.google.com",
        "body": "This is body 1"
    },
    {
        "url": "https://www.yahoo.com",
        "body": "This is body 2"
    }
]

Вы можете извлечь конкретные поля в виде метаданных, используя:

"source": "/url"

Это добавит значение поля url в метаданные под ключом "source" для каждого документа.