告别“你问我答”:ChatGPT 语音功能重磅升级,双向实时对话时代开启
OpenAI 近期在 ChatGPT 的网页端及 App 中悄然引入了一项名为“Bidi1”的全新语音模型,预示着 AI 语音交互的未来将迎来显著的革新。该模型的核心在于其创新的“双向并行处理”能力,彻底改变了以往 AI 语音助手的线性交互模式。
传统的 AI 语音助手在用户输入前,需要完成全部语音输出,这导致用户必须被动等待,无法实现流畅的多轮对话。而 Bidi1 模型打破了这一限制,它能够在 AI 自身输出语音的同时,实时监听并处理用户的输入。这意味着,即使在 AI 正在回应的过程中,用户也可以随时打断或发出新的指令,AI 能够无缝衔接,立即响应并调整其执行逻辑。

这种“边听边回、实时响应”的交互方式,极大地拉近了人机对话与真实人类沟通的距离。在演示案例中,当模型执行数数任务时,用户随时插话要求其倒数,模型也能立刻理解并切换指令,展现出远超以往的灵活性和自然度。这种改进使得 AI 语音交互体验不再僵硬,而是变得极其流畅和贴合实际对话场景。
在用户界面层面,Bidi1 模型也拥有清晰的标识。当用户在设置中选择该选项后,原有的语音气泡将呈现出醒目的黄色,以此来提示用户已启用这一更高级的语音交互模式。虽然 OpenAI 尚未正式大范围推广,但目前的测试反馈表明,该功能的正式上线已进入倒计时阶段。
Bidi1 模型的引入,标志着 AI 语音交互正从简单的辅助工具向更智能、更具沉浸感的对话伙伴演进。对于那些偏好通过语音完成任务的用户而言,一个更加“善解人意”、反应迅捷的智能助手即将成为现实。其输入形式仍为语音,但输出将更加灵活,能够实时处理并依据上下文进行调整,这使得其在需要快速反馈的场景中优势更为明显。