Osmi
LangChain

БД Записеи

Менеджеры записей отслеживают ваши индексированные документы, предотвращая дублирование векторных представлений в БД векторе.

Менеджеры записей отслеживают ваши индексированные документы, предотвращая дублирование векторных представлений в БД векторе.

При добавлении или обновлении фрагментов документов (upserting), каждый фрагмент хешируется с помощью алгоритма SHA-1. Эти хэши сохранятся в менеджере записей. Если обнаружен существующий хэш, процесс вставки или обновления векторных данных будет пропущен.

В некоторых случаях вы можете захотеть удалить существующие документы, которые взяты из тех же источников, что и новые документы для индексации. Для этого у менеджера записей предусмотрены 3 режима очистки:

Инкрементальный режим:

Когда вы обновляете сразу несколько документов (upsert) и хотите предотвратить удаление существующих документов, которые не входят в текущий процесс обновления, используйте режим очистки "Пошаговый").

  1. Давайте используем менеджер записей с режимом ""Пошаговый" и источником как ключ Идентификатор источника.
  2. И иметь следующие 2 документа:
ТекстМетаданные
Cat{source:"cat"}
Dog{source:"dog"}
  1. После выполнения операции upsert мы увидим 2 документа, которые были обновлены или вставлены:
  2. Теперь, если мы удалим документ Dog и обновим Cat на Cats, мы увидим следующее:
  • Исходный документ Cat удалён.
  • Добавлен новый документ с Cats.
  • Документ Dog остался без изменений.
  • Оставшиеся векторные представления в хранилище (БД векторов) — это Cats и Dog.

Режим "Полный"

Когда вы обновляете сразу несколько документов (upsert), режим очистки "Полный" автоматически удаляет все векторные представления, которые не входят в текущий процесс обновления.

  1. Давайте используем менеджер записей с режимом "Полный" Cleanup. Для режима "Полный" Cleanup не требуется использовать ключ Идентификатор источника.
  2. И иметь следующие 2 документа:
ТекстМетаданные
Cat{source:"cat"}
Dog{source:"dog"}
  1. После операции upsert мы увидим 2 документа, которые были обновлены или вставлены:
  2. Теперь, если мы удалим документ Dog и обновим Cat на Cats, мы увидим следующее:
  • Исходный документ Cat удалён.
  • Добавлен новый документ с Cats.
  • Документ Dog удалён.
  • Оставшиеся векторные представления в хранилище (БД векторов) — это только Cats.

Режим "Отсутствует"

Очистка не будет выполнена.

Текущие доступные узлы менеджера записей:

SQLite MySQL PostgreSQL