Представьте не говорящую игрушку, а аккуратного первого оператора: он принимает звонок, уточняет задачу, сверяется с утверждёнными материалами, фиксирует summary и не делает действий, которые требуют человека.
Definition
AI Voice Agent — это агентный сценарий, где голос используется как входной и выходной канал. Сам по себе голос не решает бизнес-задачу. Он становится полезным, когда за ним есть intake, утверждённая база знаний, правила действий, handoff и проверка качества.
Короткая формула:
Voice layer + business workflow + approved knowledge + handoff + quality checks
Why voice is not enough
Если подключить только красивый голос, компания получит приятный интерфейс к старому хаосу. Агент может звучать уверенно, но не знать актуальную цену, не понимать, когда нужен оператор, или обещать то, что бизнес не готов выполнять.
Голос усиливает доверие к ответу. Поэтому ошибки в voice flow опаснее, чем ошибки в черновом чате: человек слышит интонацию, паузы и тембр, но не видит, есть ли за ответом источник.
Практический вывод: voice agent нужно проектировать от процесса, а не от микрофона. Сначала сценарий звонка, обязательные поля, approved sources и stop-lines. Потом provider layer и интеграции.
How it works
Базовый контур выглядит так:
Call
→ Voice I/O
→ Transcript Module
→ Intake Module
→ Knowledge Pack
→ Answer or Handoff
→ Summary
→ Quality Checks
Внутри этого контура агент делает простые, проверяемые действия: распознаёт запрос, задаёт уточняющие вопросы, сверяется с approved materials, фиксирует summary и передаёт сложные случаи человеку.
Required layers
Voice I/O— принимает и отдаёт речь.Transcript Module— превращает разговор в текст, который можно проверить.Intake Module— собирает обязательные поля заявки или обращения.Knowledge Pack— ограничивает ответы утверждёнными материалами.Operator Handoff— переводит разговор человеку, когда данных не хватает или риск выше допустимого.Approval Gates— блокирует действия вроде booking, CRM write, payment или promise без подтверждения.Consent / Recording Rules— задаёт правила согласия, записи и хранения разговора.Quality Checks— проверяет transcript, source grounding, handoff и forbidden claims.
Tools and roles
Vapi может быть voice provider layer для быстрого prototype. Dify может помогать с workflow prototype. AnythingLLM полезен как быстрый knowledge assistant benchmark. Ragas относится к eval layer, если ответы завязаны на retrieval.
Инструменты не заменяют метод. В AI-Ready они рассматриваются как роли внутри Solution Graph, а не как центр продукта.
Второй route slice начинается как раз с tools: Dify ведёт к подготовке базы знаний и approval layers, а Ragas — к RAG Quality, Knowledge Pack и Harness. Это помогает не превращать Tool Radar в каталог функций.
Risks and boundaries
Voice agent не должен сам назначать встречу, обещать цену, менять CRM, отправлять письмо, принимать оплату или давать high-risk advice без явного approval. Если утверждённого источника нет, агент должен признать, что данных недостаточно, и передать разговор человеку.
Отдельно проверяются consent, запись разговора, хранение transcript, доступ к данным клиента и действия внешних инструментов.
DIY path
Для первого безопасного prototype достаточно одного узкого сценария:
- Выберите типовой звонок.
- Опишите обязательные поля intake.
- Соберите
Knowledge Packтолько под этот сценарий. - Напишите фразы handoff и отказа от неподтверждённых claims.
- Протестируйте happy path, missing information, conflicting source и angry caller.
- Только после этого выбирайте voice provider и интеграции.
When to ask AI-Ready
AI-Ready имеет смысл подключать, когда нужен не только голосовой prototype, а весь контур: сценарий звонка, knowledge pack, handoff, approval rules, eval-сценарии и понятная граница между автоматизацией и человеком.
Сервисный слой остаётся вторичным: сначала метод, затем tool choice, затем внедрение.