火山引擎豆包音频模型1.0：一句话生成影视级音频

作者 V科技发布时间 2026年06月24日 15:16 浏览量 36 0 评论

火山引擎在昨日正式推出了其最新的音频生成模型——豆包音频生成模型1.0（Doubao-Seed-Audio 1.0）。该模型的核心亮点在于，能够一次性处理文本或音频输入，并端到端地生成完整的音频作品，显著简化了传统的音频制作流程。

豆包音频生成模型1.0的最大突破在于，通过一条简单的文本指令（Prompt），即可同时生成对白、音效和背景音乐等所有音频元素。这意味着创作者不再需要耗费大量时间进行多轨剪辑和后期合成，而是可以直接收到可直接上线使用的音频成品，例如有声剧、播客节目或品牌宣传音频。

在长音频创作领域，模型有效解决了角色声音前后不一致的难题。它实现了文生音频与参考音频的深度联动，确保在较长的音频内容中，同一角色的音色能够保持高度统一。创作者无需再进行繁琐的逐段比对和反复修音，即可保持音色的一致性。目前，该模型单次支持生成2分钟的音频，并且可以通过多次延长的功能，在长程生成中持续保持音色的稳定，满足了有声书、播客、长剧集等多样化内容创作的需求。

V科技点评

此外，豆包音频生成模型1.0还支持音色与风格的解耦控制，让同一个音色能够根据不同的情绪和语境呈现出差异化的表达，甚至能够实现“一声多角”的创意应用，极大地提升了角色配音和创意音频生产的灵活性。目前，火山方舟已开放该模型的API邀测，个人用户也可在体验中心获得30分钟的免费创作额度。该模型预计也将很快集成到剪映、即梦、番茄等知名内容创作产品中。

作为一款AI驱动的音频生成工具，豆包音频生成模型1.0在输入形式上提供了极大的便利，用户只需提供文本描述，即可生成包含对白、音效和背景音乐的完整音频。其输出形式为可直接使用的音频文件，适用于短视频配音、播客制作、有声读物等多种场景。模型的强大之处在于其端到端的生成能力和对长音频一致性的把控，这大大降低了内容创作者的门槛，尤其对于缺乏专业音频制作经验的用户而言，其上手难度较低。

火山引擎豆包音频模型1.0：一句话生成影视级音频

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

火山引擎豆包音频模型1.0：一句话生成影视级音频

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复