Без eval scenarios команда проверяет агента на случайных вопросах. Сценарий делает проверку повторяемой: что спросили, какой source должен сработать, где агент обязан остановиться и что считается ошибкой.
Роль в AI-Ready
Eval Scenario — это повторяемый сценарий проверки поведения AI: один вопрос, expected source, ожидаемый ответ или отказ, риск и pass/fail signal.
Это не самостоятельный продукт и не отдельный eval tool. Это проверочный шаблон внутри Knowledge Pack, Answer Policy, Forbidden Claims, RAG Quality и Harness.
Eval Scenario помогает проверять не только красивый happy path, но и ситуации, где агент должен признать gap, остановиться, сделать Operator Handoff или ждать Approval Gate.
Если вы только начинаете, проще читать так:
- сначала откройте Knowledge Pack, чтобы понять, какие знания и правила готовятся для агента;
- затем посмотрите Answer Policy и Forbidden Claims, чтобы описать expected behavior;
- после этого вернитесь сюда и передайте failed findings в RAG Quality Report и Decision Log.
Техническая часть ниже показывает минимальный формат сценария, failure modes и связь с quality route.
Простое определение
Eval Scenario — это один повторяемый тест поведения AI-системы. Он описывает input, expected source, expected answer or refusal, risk и pass/fail signal.
Сценарий нужен не только для RAG. Он проверяет, умеет ли агент отвечать из источника, признавать gap, делать Operator Handoff и останавливаться перед Approval Gate.
Почему это важно
Prototype часто проходит демо на удобных вопросах. В реальном процессе появляются edge cases: нет источника, источники конфликтуют, пользователь просит цену, действие требует approval или вопрос должен уйти оператору.
Eval Scenario заставляет проверить эти случаи до pilot.
Минимальный формат
scenario: какой случай проверяется
input: что спрашивает пользователь
expected_source: какой source должен быть найден
reference_answer: безопасный ожидаемый ответ
expected_behavior: ответ, уточнение, отказ или handoff
risk: почему сценарий важен
pass_signal: как понять, что тест прошёл
fail_signal: как понять, что тест провален
report_destination: куда отправить finding
Common failure mode
Самая частая ошибка — тестировать только happy path. Тогда агент выглядит готовым, но не умеет безопасно останавливаться.
Вторая ошибка — писать scenario без expected source. Такой тест проверяет убедительность текста, а не надёжность знания.
Как связано с другими страницами
Source Map задаёт expected source. Answer Policy описывает expected behavior. Forbidden Claims показывает, какие ответы должны быть blocked. RAG Quality запускает проверку, RAG Quality Report фиксирует finding, а Decision Log записывает решение.
Следующий маршрут
Для knowledge route начните с Source Map и Knowledge Pack. Затем составьте 5–10 eval scenarios: covered, missing, conflict, forbidden claim и handoff required. Failed scenarios отправляйте в RAG Quality Report.