阿里语音大模型斩获国际权威榜单三项第一
在 2026 年 5 月 28 日发布的全球权威 AI 评测平台 Artificial Analysis 最新一期语音排行榜(Speech Arena)中,阿里巴巴凭借其语音大模型 Fun-Realtime-TTS-Preview 取得了令人瞩目的成绩,以 1190 分的 Elo 评分位列全球第五,并荣登国产第一的宝座。
本次评测结果显示,阿里巴巴的语音技术体系在三个关键赛道上均展现出卓越的性能,成功包揽国内榜首。在自动语音识别(ASR)领域,该技术在将语音转化为文字的准确度和鲁棒性方面表现突出,尤其是在复杂音频环境下的理解能力表现出色。而在端到端语音理解与对话(Chat)赛道,其在实时语音对话的流畅性、逻辑性和响应速度方面拔得头筹,标志着其在智能助手“耳听口说”交互方面的能力已达行业顶尖水平。
作为此次评测的重头戏,Fun-Realtime-TTS-Preview 在文本转语音(TTS)领域实现了重大突破。该模型成功克服了传统语音合成中“高自然度”与“极速响应”难以兼顾的挑战,通过先进的端到端深度架构,实现了在毫秒级延迟下输出媲美真人语调的语音效果。这种实时化能力对于需要极高时效性的应用场景,如智能汽车交互、数字人直播、实时翻译以及客服等,具有决定性的意义。
Artificial Analysis 平台的评测以其严苛著称,不仅关注模型在测试集上的表现,更重视用户在真实场景下的交互体验。阿里巴巴此次在三大核心语音赛道上的全面领先,预示着国产语音技术正迈向“深度智能”的新阶段。这标志着语音 AI 正加速进入“大模型时代”,传统的语音处理方式正被深度学习大模型底座所取代,带来感知质量的量级提升。同时,这也在“语音交互”这一核心入口上,为国产智能硬件和各类大模型生态提供了更强的全球竞争力,并进一步巩固了阿里在语音识别、理解和合成全链路上的闭环能力,为构建无缝衔接的 AI 智能体奠定了坚实基础。
Fun-Realtime-TTS-Preview 的核心优势在于其先进的语音合成技术,能够实现高自然度、情感丰富的语音生成,并具备极快的响应速度,使其能够应用于多种实时交互场景。对于普通用户而言,这意味着未来在与智能设备、数字助手交互时,将获得更加自然、流畅和富有情感的体验,有望显著提升用户的使用便捷性和满意度。