Результаты
Результаты помогают вам отслеживать и понимать эффективность вашего приложения Агента/Мульти агента. В общем случае, оценка — это процесс, в котором берутся набор входных данных и соответствующих выводов из вашего Агента/Мульти агента, и на их основе формируются результаты. Эти результаты могут быть получены путём сравнения выводов с эталонными результатами, например, при помощи сравнения строк, числового сравнения или даже с помощью использования внешней большой языковой модели (LLM) в качестве судьи. Результаты проводятся с помощью наборов данных (Dataset) и AI тестировщиков (Evaluator).
Наборы данных — наборы данных
Datasets — это входные данные для прогона вашего Агента/Мульти агента плюс ожидаемые выходы для сравнения. Вы можете добавить пары «вход → ожидаемый выход» вручную или загрузить CSV с двумя колонками: Input и Output.
| Ввод (Input) | Вывод (Output) |
|---|---|
| Какая столица Великобритании? | Столица Великобритании — Лондон. |
| Сколько дней в году? | В году 365 дней. |
AI тестировщики
AI тестировщики — это подобие модульных тестов. Во время результатов входные данные из набора данных запускаются на выбранных потоках, и результы выводов выполняются с помощью выбранных оценщиков. Существует 3 типа оценщиков:
- Текстовые: проверка по строкам:
- Contains Any - содержит хотя бы одно из ...
- Contains All - содержит все из …
- Does Not Contains Any - не содержит ни одного из …
- Does Not Contains All - не содержит все из …
- Starts With - начинается с …
- Does Not Starts With - не начинается с …
- Числовые: проверка числовых значений:
- Total Tokens (общее число токенов)
- Prompt Tokens (токены запроса)
- Completion Tokens (токены ответа)
- API Latency (задержка API)
- LLM Latency (задержка LLM)
- Agents Latency (задержка агента)
- Agentflow Latency (будущая возможность)
- Output Characters Length (длина вывода в символах)
- На базе LLM: использование другой LLM для результата:
- Hallucination (галлюцинации) — неверные или вымышленные ответы
- Correctness (корректность/правильность)
Процесс результата
- Выберите набор данных и чатпоток для результата. Можно выбрать несколько наборов данных и потоков. Например, все входные данные из Dataset1 будут запущены на выполнение в двух чатпотоках. Так как Dataset1 содержит 2 входных данных, будет получено и оценено в целом 4 вывода.
- Выберите AI тестировщика. На этом этапе доступны только строковые и числовые AI тестировщики.
- (Опционально) Выберите оценщик, основанный на LLM. Нажмите «Запустить оценку».
- Дождитесь завершения результа.
После завершения результата нажмите на значок графика справа, чтобы просмотреть подробности:
На трех графиках отображается сводка результата:
- Процент прохождения/неудачи
- Среднее число использованных токенов запроса и ответа
- Среднее время задержки
Таблица ниже графиков показывает детали каждой конкретной сессии выполнения.
Повторный прогон результата
Если потоки, используемые при оценке, были обновлены или изменены, появится предупреждающее сообщение.
Нажмите «Повторить оценку» (Re-Run Evaluation) в правом верхнем углу, чтобы перезапустить тот же набор. Вы увидите разные версии результат и сможете сравнивать результаты между версиями.

