Osmi
LangChain

Разделители текста

Узлы разделителей текста в LangChain

Разделители текста

Когда требуется обработать длинные участки текста, их необходимо разбить на части. Хотя это кажется простым, на практике здесь возникает множество возможных сложностей. Лучше всего сохранять вместе те части текста, которые семантически связаны между собой. Значение того, что считается «семантически связанным», зависит от типа текста. В этом блокноте показано несколько способов выполнения этого.

На высоком уровне процесс работы текстовых разделителей выглядит так:

  1. Разделить текст на небольшие, семантически значимые куски (часто это предложения).
  2. Начать объединять эти маленькие куски в более крупный, пока не достигнете определенного размера (по некоторой функции измерения).
  3. Как только достигаете этого размера, создаете этот крупный кусок как отдельную часть текста, затем начинаете формировать новый кусок с некоторым перекрытием (чтобы сохранить контекст между кусками).

Это означает, что есть две различные оси, по которым можно настроить ваш разделитель текста:

  • Как происходит разделение текста
  • Как измеряется размер блока (чанка)

Узлы разделителей текста: