小米MiMo-V2.5语音模型发布：一句话克隆真人音色

作者 V科技

2026/04/24 07:53 浏览量 3 0 评论

小米发布MiMo-V2.5全链路语音模型，Agent时代语音交互新篇章

近日，小米正式推出了其新一代全链路语音模型系列MiMo-V2.5。该系列模型旨在面向日益兴起的Agent时代，全面提升语音的输入与输出能力，实现语言对语音的自由调度，预示着人机交互方式的重大演进。

MiMo-V2.5系列模型覆盖了语音识别（ASR）与语音合成（TTS）两大核心技术领域。其中，在语音合成方面，MiMo-V2.5-TTS系列推出了面向不同创作需求的三个子模型。

MiMo-V2.5-TTS作为基础模型，内置了多款经过专业调优的高质量音色。这些音色发音自然、情感丰富，并且支持语速、情绪、语气等精细化参数的调整，能够满足多样化的表达需求，实现“开箱即用”的便捷体验。

更具突破性的是MiMo-V2.5-TTS-VoiceDesign模型，它能够仅通过一句自然语言描述，便能生成全新的语音音色，无需任何参考音频。用户可以从年龄、性别、口音、音质甚至性格气质等多个维度进行自由定义，例如“低沉略带嘶哑的老年学者”或“元气满满的少女”，模型即可智能生成与之匹配的声音。这一能力得益于其强大的大规模预训练能力，能够精准理解复杂、模糊乃至矛盾的描述，超越了传统的粗粒度标签限制。

MiMo-V2.5-TTS-VoiceClone模型则专注于音色克隆。该模型仅需用户提供数秒的参考音频，无需额外的训练或微调，即可精准复刻真人声音，包括播客、配音演员、品牌代言人甚至是用户本人。克隆后的声音不仅保留了原始说话者的音色身份，更重要的是，它还能捕捉并保留说话时的气息、节奏以及习惯性的停顿等细微的个人特征。在此基础上，克隆音色还能结合自然语言指令、音频标签或剧本，实现高度自由的语音内容创作。

在语音识别方面，MiMo-V2.5-ASR作为整个语音链路的基石，在中英双语、中文方言、Code-Switch（语码转换）、强噪音环境、多说话人场景以及高知识密度内容等复杂真实场景下，均达到了业界领先水平，展现了其强大的鲁棒性和准确性。

目前，MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign以及MiMo-V2.5-TTS-VoiceClone这三款语音合成模型已在Xiaomi MiMo API开放平台提供限时免费体验。

小米此次发布的MiMo-V2.5语音模型系列，不仅在技术上实现了多项突破，特别是在无参考音频的音色生成和精细化音色克隆方面，更重要的是，它为Agent时代的智能化交互奠定了坚实基础。通过“听懂”和“说出”能力的全面升级，预示着未来人机协作将更加自然、高效且富有表现力。

小米MiMo-V2.5语音模型发布：一句话克隆真人音色

小米发布MiMo-V2.5全链路语音模型，Agent时代语音交互新篇章

暂无评论！成为第一个。

发表回复取消回复

小米MiMo-V2.5语音模型发布：一句话克隆真人音色

小米发布MiMo-V2.5全链路语音模型，Agent时代语音交互新篇章

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复