xAI 发布 Voice Agent Builder:两分钟上手生产级语音智能体
xAI 发布 Voice Agent Builder 测试版,降低企业级语音智能体开发门槛
AI 语音技术迎来新进展。xAI 近日推出了其 Voice Agent Builder 平台的测试版本,该平台旨在大幅简化企业构建语音智能体的流程。借助 xAI 自主研发的 Grok Voice 模型,开发者和运营人员现在只需约两分钟即可完成一个功能齐全的语音服务系统的配置。
Voice Agent Builder 的核心亮点在于其高度集成的端到端架构,有效解决了传统语音解决方案中多个独立环节(如语音识别、大模型处理和语音合成)集成的复杂性和成本问题。xAI 创造了一条统一的、紧密集成的路径,集成了电话通信、知识库查询、自动化工具接口、MCP 服务器连接以及全面的合规性防护(Guardrails)等一站式能力。

在性能方面,xAI 提供了颇具说服力的 benchmark 数据。其核心模型 Grok Voice Think Fast 1.0 在 τ-voice Bench 评测中取得了 67.3% 的得分,明显超越了 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。Grok Voice 模型在嘈杂背景、口音差异和突发中断等复杂通话场景下的优化表现尤为突出。
该平台的用户友好性也是一大卖点。使用者可以通过自然语言描述通话目标,并上传各类文档,智能体便能自动完成知识整合。在实际业务操作层面,开发者能够便捷地调用 API 连接器,实现预约安排、订单查询以及触发外部系统工作流等闭环任务。此外,平台提供超过 80 种内置音色,并支持用户通过上传两分钟的音频样本来克隆个性化声音。

对于企业而言,Voice Agent Builder 的易用性和成本效益是重要的考量因素。平台采用透明的定价模式,不收取额外的平台使用费,仅按照 API 调用量计费,每分钟音频处理费用为 0.05 美元。使用平台提供的电话服务则额外收取 0.01 美元/分钟,并且每个账户都附带一个免费电话号码,这大大降低了从开发到生产部署的初期投入。
Voice Agent Builder 的推出,标志着 xAI 在语音人工智能领域迈出了重要一步。通过技术的高度集成和清晰的定价策略,xAI 旨在为需要快速部署语音解决方案的企业提供一个高效且具竞争力的选择,有望重塑语音智能体的商业应用格局。