Когда агент отвечает по документам, важно проверить не только текст ответа. Нужно понять, нашёл ли retrieval нужный источник, не исказил ли агент смысл и что происходит, если источника нет.

Short verdict

Ragas — eval layer для LLM/RAG applications. Он помогает перейти от субъективного «ответ выглядит нормально» к systematic evaluation loop: eval dataset, metrics, error analysis и improvement loop.

В AI-Ready Ragas связан с /wiki/rag-quality и Harness. Он помогает проверять retrieval и grounded answer, но не доказывает, что ошибок нет.

What official sources say

Official Ragas docs описывают библиотеку как способ перейти от vibe checks к systematic evaluation loops для AI applications.

В official metrics docs Ragas перечисляет RAG metrics: Context Precision, Context Recall, Response Relevancy, Faithfulness и другие. Там же есть metrics для agent/tool use cases.

Official guide по RAG показывает evaluation dataset, metrics, reusable pipeline, error analysis и iterative improvement.

Best fit

  • RAG quality audit;
  • проверка knowledge assistant перед pilot;
  • regression checks после обновления базы знаний;
  • поиск слабых тем в Knowledge Pack;
  • сравнение вариантов retrieval / chunking / answer policy.

Not fit

  • проекты без source map;
  • ситуации, где нет reference answers;
  • оценка бизнес-процесса без eval scenarios;
  • замена human review в high-risk темах;
  • production approval только по одной метрике.

Role in AI-Ready

Ragas работает рядом с Knowledge Pack, Eval Scenarios, Source Map, RAG Quality Report и Decision Log. Он не решает governance один, но помогает увидеть качество retrieval и grounded answer.

Ragas
→ RAG Quality
→ Knowledge Pack
→ Harness

Risks and boundaries

Метрика без сценария создаёт ложную уверенность. Если eval set не покрывает missing information, conflicting sources и forbidden claims, production-риск остаётся.

Поэтому Ragas не должен быть единственным approval signal. Для AI-Ready нужен Harness: source map, reference answers, decision log и review path.

Source/evidence notes

Live source review выполнен 2026-06-22 по official Ragas docs и official GitHub repository. Этот review подтверждает роль Ragas как eval toolkit для LLM/RAG applications.

Review не закрывает выбор конкретного runtime, стоимость LLM calls, privacy, security, hosting и качество eval dataset. Эти вопросы проверяются в project-specific implementation review.

Ask LLM context

Ask LLM block ниже помогает составить первый eval-набор для RAG без подключения реальных API.