Osmi
Загрузчики документов

Plain Text

Узел простого текста

Простой текст — самая базовая форма текстовых данных, не содержащая форматирования или встроенной информации. Этот модуль предоставляет возможность загружать и обрабатывать простой текст непосредственно.

Этот модуль обеспечивает простой загрузчик текстовых документов, который может:

  • Загружать текстовое содержимое напрямую
  • Обрабатывать текст с помощью разделителей
  • Добавлять пользовательские метаданные
  • Обрабатывать управляющие символы
  • Поддерживать разбиение документа
  • Настраивать извлечение метаданных
  • Управлять кодировкой текста

Входные данные

Обязательные параметры

Текст: Текстовое содержимое для обработки

Дополнительные параметры

  • Разделитель текста: Разделитель для обработки содержимого
  • Дополнительные метаданные: JSON-объект с дополнительной информацией
  • Исключить ключи метаданных: Список ключей метаданных через запятую для исключения

Выходные данные

  • Документ: Массив объектов документов, содержащих метаданные и содержимое страницы
  • Текст: Конкатенированная строка, полученная из содержимого страниц документов

Особенности

  • Прямой ввод текста
  • Поддержка разбиения текста
  • Обработка метаданных
  • Обработка ошибок
  • Эффективная обработка с минимальным использованием памяти
  • Обработка кодировок символов
  • Гибкие форматы вывода

Обработка текста

Прямой режим

  • Создаётся один документ
  • Сохраняется исходный текст
  • Базовая обработка метаданных
  • Эффективен по памяти

Режим разбиения

  • Создаётся несколько документов
  • Пользовательские правила разбиения
  • Метаданные для каждого сегмента
  • Детальный доступ к содержимому

Структура документа

Каждый документ содержит:

  • pageContent: исходный или разделённый текст
  • метаданные:
    • Пользовательские метаданные из входных данных
    • Метаданные, связанные с разбиением (при использовании разделителя)
    • Дополнительные свойства метаданных

Обработка содержимого

Ввод текста

  • Прямая строка
  • Многострочный режим
  • Поддержка Unicode
  • Обработка управляющих символов

Опции обработки

  • Разбиение текста
  • Добавление метаданных
  • Нормализация символов
  • Обработка пробелов

Примечания

  • Простое и эффективное решение
  • Не требуется работа с файлами
  • Высокая эффективность по памяти
  • Обработка ошибок при неправильных входных данных
  • Поддержка больших текстов
  • Гибкие форматы вывода
  • Настройка метаданных
  • Поддержка кодировок символов