Загрузчики документов
Plain Text
Узел простого текста
Простой текст — самая базовая форма текстовых данных, не содержащая форматирования или встроенной информации. Этот модуль предоставляет возможность загружать и обрабатывать простой текст непосредственно.
Этот модуль обеспечивает простой загрузчик текстовых документов, который может:
- Загружать текстовое содержимое напрямую
- Обрабатывать текст с помощью разделителей
- Добавлять пользовательские метаданные
- Обрабатывать управляющие символы
- Поддерживать разбиение документа
- Настраивать извлечение метаданных
- Управлять кодировкой текста
Входные данные
Обязательные параметры
Текст: Текстовое содержимое для обработки
Дополнительные параметры
- Разделитель текста: Разделитель для обработки содержимого
- Дополнительные метаданные: JSON-объект с дополнительной информацией
- Исключить ключи метаданных: Список ключей метаданных через запятую для исключения
Выходные данные
- Документ: Массив объектов документов, содержащих метаданные и содержимое страницы
- Текст: Конкатенированная строка, полученная из содержимого страниц документов
Особенности
- Прямой ввод текста
- Поддержка разбиения текста
- Обработка метаданных
- Обработка ошибок
- Эффективная обработка с минимальным использованием памяти
- Обработка кодировок символов
- Гибкие форматы вывода
Обработка текста
Прямой режим
- Создаётся один документ
- Сохраняется исходный текст
- Базовая обработка метаданных
- Эффективен по памяти
Режим разбиения
- Создаётся несколько документов
- Пользовательские правила разбиения
- Метаданные для каждого сегмента
- Детальный доступ к содержимому
Структура документа
Каждый документ содержит:
- pageContent: исходный или разделённый текст
- метаданные:
- Пользовательские метаданные из входных данных
- Метаданные, связанные с разбиением (при использовании разделителя)
- Дополнительные свойства метаданных
Обработка содержимого
Ввод текста
- Прямая строка
- Многострочный режим
- Поддержка Unicode
- Обработка управляющих символов
Опции обработки
- Разбиение текста
- Добавление метаданных
- Нормализация символов
- Обработка пробелов
Примечания
- Простое и эффективное решение
- Не требуется работа с файлами
- Высокая эффективность по памяти
- Обработка ошибок при неправильных входных данных
- Поддержка больших текстов
- Гибкие форматы вывода
- Настройка метаданных
- Поддержка кодировок символов

