Представьте не говорящую игрушку, а аккуратного первого оператора: он принимает звонок, уточняет задачу, сверяется с утверждёнными материалами, фиксирует summary и не делает действий, которые требуют человека.

Definition

AI Voice Agent — это агентный сценарий, где голос используется как входной и выходной канал. Сам по себе голос не решает бизнес-задачу. Он становится полезным, когда за ним есть intake, утверждённая база знаний, правила действий, handoff и проверка качества.

Короткая формула:

Voice layer + business workflow + approved knowledge + handoff + quality checks

Why voice is not enough

Если подключить только красивый голос, компания получит приятный интерфейс к старому хаосу. Агент может звучать уверенно, но не знать актуальную цену, не понимать, когда нужен оператор, или обещать то, что бизнес не готов выполнять.

Голос усиливает доверие к ответу. Поэтому ошибки в voice flow опаснее, чем ошибки в черновом чате: человек слышит интонацию, паузы и тембр, но не видит, есть ли за ответом источник.

Практический вывод: voice agent нужно проектировать от процесса, а не от микрофона. Сначала сценарий звонка, обязательные поля, approved sources и stop-lines. Потом provider layer и интеграции.

How it works

Базовый контур выглядит так:

Call
→ Voice I/O
→ Transcript Module
→ Intake Module
→ Knowledge Pack
→ Answer or Handoff
→ Summary
→ Quality Checks

Внутри этого контура агент делает простые, проверяемые действия: распознаёт запрос, задаёт уточняющие вопросы, сверяется с approved materials, фиксирует summary и передаёт сложные случаи человеку.

Required layers

  1. Voice I/O — принимает и отдаёт речь.
  2. Transcript Module — превращает разговор в текст, который можно проверить.
  3. Intake Module — собирает обязательные поля заявки или обращения.
  4. Knowledge Pack — ограничивает ответы утверждёнными материалами.
  5. Operator Handoff — переводит разговор человеку, когда данных не хватает или риск выше допустимого.
  6. Approval Gates — блокирует действия вроде booking, CRM write, payment или promise без подтверждения.
  7. Consent / Recording Rules — задаёт правила согласия, записи и хранения разговора.
  8. Quality Checks — проверяет transcript, source grounding, handoff и forbidden claims.

Tools and roles

Vapi может быть voice provider layer для быстрого prototype. Dify может помогать с workflow prototype. AnythingLLM полезен как быстрый knowledge assistant benchmark. Ragas относится к eval layer, если ответы завязаны на retrieval.

Инструменты не заменяют метод. В AI-Ready они рассматриваются как роли внутри Solution Graph, а не как центр продукта.

Второй route slice начинается как раз с tools: Dify ведёт к подготовке базы знаний и approval layers, а Ragas — к RAG Quality, Knowledge Pack и Harness. Это помогает не превращать Tool Radar в каталог функций.

Risks and boundaries

Voice agent не должен сам назначать встречу, обещать цену, менять CRM, отправлять письмо, принимать оплату или давать high-risk advice без явного approval. Если утверждённого источника нет, агент должен признать, что данных недостаточно, и передать разговор человеку.

Отдельно проверяются consent, запись разговора, хранение transcript, доступ к данным клиента и действия внешних инструментов.

DIY path

Для первого безопасного prototype достаточно одного узкого сценария:

  1. Выберите типовой звонок.
  2. Опишите обязательные поля intake.
  3. Соберите Knowledge Pack только под этот сценарий.
  4. Напишите фразы handoff и отказа от неподтверждённых claims.
  5. Протестируйте happy path, missing information, conflicting source и angry caller.
  6. Только после этого выбирайте voice provider и интеграции.

When to ask AI-Ready

AI-Ready имеет смысл подключать, когда нужен не только голосовой prototype, а весь контур: сценарий звонка, knowledge pack, handoff, approval rules, eval-сценарии и понятная граница между автоматизацией и человеком.

Сервисный слой остаётся вторичным: сначала метод, затем tool choice, затем внедрение.