Без eval scenarios команда проверяет агента на случайных вопросах. Сценарий делает проверку повторяемой: что спросили, какой source должен сработать, где агент обязан остановиться и что считается ошибкой.

Роль в AI-Ready

Eval Scenario — это повторяемый сценарий проверки поведения AI: один вопрос, expected source, ожидаемый ответ или отказ, риск и pass/fail signal.

Это не самостоятельный продукт и не отдельный eval tool. Это проверочный шаблон внутри Knowledge Pack, Answer Policy, Forbidden Claims, RAG Quality и Harness.

Eval Scenario помогает проверять не только красивый happy path, но и ситуации, где агент должен признать gap, остановиться, сделать Operator Handoff или ждать Approval Gate.

Если вы только начинаете, проще читать так:

  1. сначала откройте Knowledge Pack, чтобы понять, какие знания и правила готовятся для агента;
  2. затем посмотрите Answer Policy и Forbidden Claims, чтобы описать expected behavior;
  3. после этого вернитесь сюда и передайте failed findings в RAG Quality Report и Decision Log.

Техническая часть ниже показывает минимальный формат сценария, failure modes и связь с quality route.

Простое определение

Eval Scenario — это один повторяемый тест поведения AI-системы. Он описывает input, expected source, expected answer or refusal, risk и pass/fail signal.

Сценарий нужен не только для RAG. Он проверяет, умеет ли агент отвечать из источника, признавать gap, делать Operator Handoff и останавливаться перед Approval Gate.

Почему это важно

Prototype часто проходит демо на удобных вопросах. В реальном процессе появляются edge cases: нет источника, источники конфликтуют, пользователь просит цену, действие требует approval или вопрос должен уйти оператору.

Eval Scenario заставляет проверить эти случаи до pilot.

Минимальный формат

Eval scenario record

scenario: какой случай проверяется

input: что спрашивает пользователь

expected_source: какой source должен быть найден

reference_answer: безопасный ожидаемый ответ

expected_behavior: ответ, уточнение, отказ или handoff

risk: почему сценарий важен

pass_signal: как понять, что тест прошёл

fail_signal: как понять, что тест провален

report_destination: куда отправить finding

Common failure mode

Самая частая ошибка — тестировать только happy path. Тогда агент выглядит готовым, но не умеет безопасно останавливаться.

Вторая ошибка — писать scenario без expected source. Такой тест проверяет убедительность текста, а не надёжность знания.

Как связано с другими страницами

Source Map задаёт expected source. Answer Policy описывает expected behavior. Forbidden Claims показывает, какие ответы должны быть blocked. RAG Quality запускает проверку, RAG Quality Report фиксирует finding, а Decision Log записывает решение.

Следующий маршрут

Для knowledge route начните с Source Map и Knowledge Pack. Затем составьте 5–10 eval scenarios: covered, missing, conflict, forbidden claim и handoff required. Failed scenarios отправляйте в RAG Quality Report.