火山引擎豆包音频模型1.0:一句话生成影视级音频
火山引擎在昨日正式推出了其最新的音频生成模型——豆包音频生成模型1.0(Doubao-Seed-Audio 1.0)。该模型的核心亮点在于,能够一次性处理文本或音频输入,并端到端地生成完整的音频作品,显著简化了传统的音频制作流程。

豆包音频生成模型1.0的最大突破在于,通过一条简单的文本指令(Prompt),即可同时生成对白、音效和背景音乐等所有音频元素。这意味着创作者不再需要耗费大量时间进行多轨剪辑和后期合成,而是可以直接收到可直接上线使用的音频成品,例如有声剧、播客节目或品牌宣传音频。
在长音频创作领域,模型有效解决了角色声音前后不一致的难题。它实现了文生音频与参考音频的深度联动,确保在较长的音频内容中,同一角色的音色能够保持高度统一。创作者无需再进行繁琐的逐段比对和反复修音,即可保持音色的一致性。目前,该模型单次支持生成2分钟的音频,并且可以通过多次延长的功能,在长程生成中持续保持音色的稳定,满足了有声书、播客、长剧集等多样化内容创作的需求。
此外,豆包音频生成模型1.0还支持音色与风格的解耦控制,让同一个音色能够根据不同的情绪和语境呈现出差异化的表达,甚至能够实现“一声多角”的创意应用,极大地提升了角色配音和创意音频生产的灵活性。目前,火山方舟已开放该模型的API邀测,个人用户也可在体验中心获得30分钟的免费创作额度。该模型预计也将很快集成到剪映、即梦、番茄等知名内容创作产品中。
作为一款AI驱动的音频生成工具,豆包音频生成模型1.0在输入形式上提供了极大的便利,用户只需提供文本描述,即可生成包含对白、音效和背景音乐的完整音频。其输出形式为可直接使用的音频文件,适用于短视频配音、播客制作、有声读物等多种场景。模型的强大之处在于其端到端的生成能力和对长音频一致性的把控,这大大降低了内容创作者的门槛,尤其对于缺乏专业音频制作经验的用户而言,其上手难度较低。