Eval Scenario

foundation conceptL2: стандартная практическая страница

Короткий ответ

Eval Scenario описывает вопрос, expected source, expected behavior, risk и pass/fail signal для одного AI-ready кейса.

Бизнес-проблема: Prototype может выглядеть убедительно на демо, но ломаться на missing source, conflict, forbidden claim или handoff case.

Бизнес-ценность: Eval Scenario превращает проверку в управляемый процесс: finding можно записать в RAG Quality Report, Decision Log и improvement loop.

Без eval scenarios команда проверяет агента на случайных вопросах. Сценарий делает проверку повторяемой: что спросили, какой source должен сработать, где агент обязан остановиться и что считается ошибкой.

Роль в AI-Ready

Eval Scenario — это повторяемый сценарий проверки поведения AI: один вопрос, expected source, ожидаемый ответ или отказ, риск и pass/fail signal.

Это не самостоятельный продукт и не отдельный eval tool. Это проверочный шаблон внутри Knowledge Pack, Answer Policy, Forbidden Claims, RAG Quality и Harness.

Eval Scenario помогает проверять не только красивый happy path, но и ситуации, где агент должен признать gap, остановиться, сделать Operator Handoff или ждать Approval Gate.

Если вы только начинаете, проще читать так:

сначала откройте Knowledge Pack, чтобы понять, какие знания и правила готовятся для агента;
затем посмотрите Answer Policy и Forbidden Claims, чтобы описать expected behavior;
после этого вернитесь сюда и передайте failed findings в RAG Quality Report и Decision Log.

Техническая часть ниже показывает минимальный формат сценария, failure modes и связь с quality route.

Простое определение

Eval Scenario — это один повторяемый тест поведения AI-системы. Он описывает input, expected source, expected answer or refusal, risk и pass/fail signal.

Сценарий нужен не только для RAG. Он проверяет, умеет ли агент отвечать из источника, признавать gap, делать Operator Handoff и останавливаться перед Approval Gate.

Почему это важно

Prototype часто проходит демо на удобных вопросах. В реальном процессе появляются edge cases: нет источника, источники конфликтуют, пользователь просит цену, действие требует approval или вопрос должен уйти оператору.

Eval Scenario заставляет проверить эти случаи до pilot.

Минимальный формат

Eval scenario record

scenario: какой случай проверяется

input: что спрашивает пользователь

expected_source: какой source должен быть найден

reference_answer: безопасный ожидаемый ответ

expected_behavior: ответ, уточнение, отказ или handoff

risk: почему сценарий важен

pass_signal: как понять, что тест прошёл

fail_signal: как понять, что тест провален

report_destination: куда отправить finding

Common failure mode

Самая частая ошибка — тестировать только happy path. Тогда агент выглядит готовым, но не умеет безопасно останавливаться.

Вторая ошибка — писать scenario без expected source. Такой тест проверяет убедительность текста, а не надёжность знания.

Как связано с другими страницами

Source Map задаёт expected source. Answer Policy описывает expected behavior. Forbidden Claims показывает, какие ответы должны быть blocked. RAG Quality запускает проверку, RAG Quality Report фиксирует finding, а Decision Log записывает решение.

Следующий маршрут

Для knowledge route начните с Source Map и Knowledge Pack. Затем составьте 5–10 eval scenarios: covered, missing, conflict, forbidden claim и handoff required. Failed scenarios отправляйте в RAG Quality Report.

Сквозной маршрут

До этого: Knowledge Pack. Дальше: RAG Quality.

Проверочный список слоёв / Layer checklist

Слои, без которых маршрут становится хрупким или небезопасным.

required

Expected source

Зачем нужен: Проверка должна знать, какой approved source поддерживает ответ.

Риск без слоя: Команда оценивает стиль ответа вместо source grounding.

Связанная страница

required

Expected behavior

Зачем нужен: Сценарий должен описать, когда отвечать, уточнять, отказывать или делать handoff.

Риск без слоя: AI может пройти тест, хотя должен был остановиться.

Связанная страница

required

Report destination

Зачем нужен: Failed scenario должен попасть в report, owner и next action.

Риск без слоя: Ошибки останутся в чате и не попадут в improvement loop.

Связанная страница

Карта решения / Solution Graph

Eval Scenarioобязательные слоипроверки качестваследующий маршрут

Обязательные слои

User question
Expected source
Reference answer
Expected refusal or handoff
Risk

Усиления

Нет обязательных усилений на этом уровне.

Инструменты

Инструменты будут связаны после research pass.

Риски

Риски будут описаны в source/evidence pass.

Следующий маршрут: RAG Quality → RAG Quality Report → Decision Log → Pilot Review Packet

Разберите эту страницу со своей LLM

Скопируйте контекст страницы в ChatGPT, Claude, Gemini или другую LLM и попросите применить эту схему к вашему бизнесу.

{
  "page_title": "Eval Scenario",
  "status": "foundation concept",
  "summary": "Eval Scenario — проверочный сценарий, который показывает, как AI должен отвечать, останавливаться, передавать handoff или просить approval.",
  "short_answer": "Eval Scenario описывает вопрос, expected source, expected behavior, risk и pass/fail signal для одного AI-ready кейса.",
  "business_value": "Eval Scenario превращает проверку в управляемый процесс: finding можно записать в RAG Quality Report, Decision Log и improvement loop.",
  "key_points": [],
  "business_problem": "Prototype может выглядеть убедительно на демо, но ломаться на missing source, conflict, forbidden claim или handoff case.",
  "system_role": "eval_layer",
  "required_layers": [
    "User question",
    "Expected source",
    "Reference answer",
    "Expected refusal or handoff",
    "Risk",
    "Pass / fail signal",
    "Report destination"
  ],
  "optional_upgrades": [],
  "related_tools": [],
  "related_pages": [
    "/wiki/source-map",
    "/wiki/knowledge-pack",
    "/wiki/answer-policy",
    "/wiki/forbidden-claims",
    "/wiki/rag-quality",
    "/wiki/rag-quality-report",
    "/wiki/decision-log",
    "/practice/pilot-review-packet",
    "/harness"
  ],
  "quality_checks": [],
  "risk_boundaries": [],
  "source_map": [
    "project-docs/AI_READY_ASTRO_LLM_WIKI_NEXT_CONTENT_MAP_v0_1.md",
    "/wiki/rag-quality",
    "/wiki/rag-quality-report",
    "/wiki/decision-log"
  ],
  "evidence_notes": [
    "Страница описывает method concept для статического Astro LLM Wiki."
  ],
  "source_status": "internal_method",
  "source_review_required": false,
  "source_review_notes": [],
  "source_urls": [],
  "factuality_level": "internal_method_concept",
  "forbidden_claims": [
    {
      "claim": "Один хороший demo answer доказывает качество.",
      "why_forbidden": "Нужны повторяемые сценарии: covered, missing, conflict, forbidden, handoff.",
      "safe_wording": "Demo answer — только сигнал; качество проверяется через eval scenarios."
    },
    {
      "claim": "Eval Scenario нужен только для RAG.",
      "why_forbidden": "Сценарии нужны также для handoff, approval gates и workflow behavior.",
      "safe_wording": "Eval Scenario проверяет answer, handoff, approval и workflow boundary."
    }
  ],
  "eval_scenarios": [
    {
      "scenario": "covered answer",
      "what_to_test": "Вопрос покрыт approved source.",
      "expected_behavior": "AI отвечает из expected source и не добавляет лишних claims."
    },
    {
      "scenario": "missing source",
      "what_to_test": "Вопрос не покрыт Source Map.",
      "expected_behavior": "AI признаёт gap и предлагает handoff."
    },
    {
      "scenario": "approval required",
      "what_to_test": "Пользователь просит внешнее действие.",
      "expected_behavior": "AI готовит payload, но не выполняет действие без approval."
    }
  ],
  "implementation_steps": [],
  "layer_checklist": [
    {
      "layer": "Expected source",
      "why_it_matters": "Проверка должна знать, какой approved source поддерживает ответ.",
      "risk_if_missing": "Команда оценивает стиль ответа вместо source grounding.",
      "related_page": "/wiki/source-map",
      "status": "required"
    },
    {
      "layer": "Expected behavior",
      "why_it_matters": "Сценарий должен описать, когда отвечать, уточнять, отказывать или делать handoff.",
      "risk_if_missing": "AI может пройти тест, хотя должен был остановиться.",
      "related_page": "/wiki/answer-policy",
      "status": "required"
    },
    {
      "layer": "Report destination",
      "why_it_matters": "Failed scenario должен попасть в report, owner и next action.",
      "risk_if_missing": "Ошибки останутся в чате и не попадут в improvement loop.",
      "related_page": "/wiki/rag-quality-report",
      "status": "required"
    }
  ],
  "handoff_fields": [],
  "approval_required_actions": [],
  "relationships": [],
  "route_id": "knowledgePreparationRoute",
  "route_sequence": [
    {
      "title": "Prepare Knowledge Base",
      "route": "/practice/prepare-knowledge-base",
      "summary": "Практическая инвентаризация источников до сборки агента.",
      "type": "practice_guide",
      "why_it_matters": "Даёт Source Inventory Template: owner, status, priority, freshness, risks и claims."
    },
    {
      "title": "Source Map",
      "route": "/wiki/source-map",
      "summary": "Карта источников: owner, status, freshness, priority, allowed claims и review path.",
      "type": "wiki_concept",
      "why_it_matters": "Показывает, какие sources можно использовать и какие требуют owner review."
    },
    {
      "title": "Answer Policy",
      "route": "/wiki/answer-policy",
      "summary": "Правила ответа: answer, clarify, refuse, handoff или wait for approval.",
      "type": "wiki_concept",
      "why_it_matters": "Не даёт агенту закрывать source gaps уверенным текстом."
    },
    {
      "title": "Forbidden Claims",
      "route": "/wiki/forbidden-claims",
      "summary": "Запрещённые claims: цены, гарантии, сроки, compliance, integrations и external actions без approval.",
      "type": "wiki_concept",
      "why_it_matters": "Превращает risky overclaim в safe wording, handoff или source review."
    },
    {
      "title": "Knowledge Pack",
      "route": "/wiki/knowledge-pack",
      "summary": "Понятие и структура approved knowledge.",
      "type": "wiki_concept",
      "why_it_matters": "Собирает approved sources, answer policy, gaps и source map в reusable package."
    },
    {
      "title": "Eval Scenario",
      "route": "/wiki/eval-scenario",
      "summary": "Проверочный сценарий для answer, refusal, handoff, approval и report finding.",
      "type": "wiki_concept",
      "why_it_matters": "Делает quality check повторяемым до pilot review."
    },
    {
      "title": "RAG Quality",
      "route": "/wiki/rag-quality",
      "summary": "Проверка retrieval, grounded answer, gaps и conflicts.",
      "type": "quality_page",
      "why_it_matters": "Показывает, какие eval scenarios должны проверить Knowledge Pack."
    },
    {
      "title": "RAG Quality Report",
      "route": "/wiki/rag-quality-report",
      "summary": "Рабочий отчёт: issue, evidence, severity, owner, status и recommended fix.",
      "type": "quality_report_page",
      "why_it_matters": "Превращает quality check в backlog улучшений, а не в впечатление."
    },
    {
      "title": "Harness",
      "route": "/harness",
      "summary": "Decision Log и Improvement Loop для повторной проверки.",
      "type": "harness_hub",
      "why_it_matters": "Фиксирует цепочку issue found → decision → fix → retest → reviewed."
    }
  ],
  "route_source": "src/data/routes.ts",
  "last_reviewed": "2026-06-23",
  "recommended_next_reading": [
    "RAG Quality",
    "RAG Quality Report",
    "Decision Log",
    "Pilot Review Packet",
    "Harness"
  ],
  "source_url": "https://ai-ready.pro/wiki/eval-scenario",
  "llm_instruction": "Объясни эту страницу как практическую часть AI-ready системы. Покажи обязательные слои, риски и следующий маршрут чтения."
}

Посмотреть карту связей

Когда нужен следующий шаг

Материал можно использовать самостоятельно. Если нужен внешний взгляд на задачу, процесс или риски, можно спокойно перейти к диагностике.

Обсудить сценарии проверки

Короткий ответ

Роль в AI-Ready

Простое определение

Почему это важно

Минимальный формат

Common failure mode

Как связано с другими страницами

Следующий маршрут

Сквозной маршрут

Проверочный список слоёв / Layer checklist

Expected source

Expected behavior

Report destination

Карта решения / Solution Graph

Обязательные слои

Усиления

Инструменты

Риски

Что читать дальше

Разберите эту страницу со своей LLM

Когда нужен следующий шаг