БД Записеи
Менеджеры записей отслеживают ваши индексированные документы, предотвращая дублирование векторных представлений в БД векторе.
При добавлении или обновлении фрагментов документов (upserting), каждый фрагмент хешируется с помощью алгоритма SHA-1. Эти хэши сохранятся в менеджере записей. Если обнаружен существующий хэш, процесс вставки или обновления векторных данных будет пропущен.
В некоторых случаях вы можете захотеть удалить существующие документы, которые взяты из тех же источников, что и новые документы для индексации. Для этого у менеджера записей предусмотрены 3 режима очистки:
Инкрементальный режим:
Когда вы обновляете сразу несколько документов (upsert) и хотите предотвратить удаление существующих документов, которые не входят в текущий процесс обновления, используйте режим очистки "Пошаговый").
- Давайте используем менеджер записей с режимом ""Пошаговый" и источником как ключ Идентификатор источника.
- И иметь следующие 2 документа:
| Текст | Метаданные |
|---|---|
| Cat | {source:"cat"} |
| Dog | {source:"dog"} |
- После выполнения операции upsert мы увидим 2 документа, которые были обновлены или вставлены:
- Теперь, если мы удалим документ Dog и обновим Cat на Cats, мы увидим следующее:
- Исходный документ Cat удалён.
- Добавлен новый документ с Cats.
- Документ Dog остался без изменений.
- Оставшиеся векторные представления в хранилище (БД векторов) — это Cats и Dog.
Режим "Полный"
Когда вы обновляете сразу несколько документов (upsert), режим очистки "Полный" автоматически удаляет все векторные представления, которые не входят в текущий процесс обновления.
- Давайте используем менеджер записей с режимом "Полный" Cleanup. Для режима "Полный" Cleanup не требуется использовать ключ Идентификатор источника.
- И иметь следующие 2 документа:
| Текст | Метаданные |
|---|---|
| Cat | {source:"cat"} |
| Dog | {source:"dog"} |
- После операции upsert мы увидим 2 документа, которые были обновлены или вставлены:
- Теперь, если мы удалим документ Dog и обновим Cat на Cats, мы увидим следующее:
- Исходный документ Cat удалён.
- Добавлен новый документ с Cats.
- Документ Dog удалён.
- Оставшиеся векторные представления в хранилище (БД векторов) — это только Cats.
Режим "Отсутствует"
Очистка не будет выполнена.
Текущие доступные узлы менеджера записей:
SQLite MySQL PostgreSQL

