字节跳动 Bernini 开源,AI 视频编辑更可控
字节跳动近日向业界推出的 Bernini 框架,标志着 AI 视频生成与编辑领域底层逻辑的革新。该统一框架的核心亮点在于其“先理解、再生成”的协同机制,旨在克服传统模型在精确解析复杂文本指令时遇到的画面失控、帧间闪烁等难题,从而提升视频内容创作的稳定性和可控性。
Bernini 的创新之处在于将视频编辑工作流拆解为“语义规划”与“视觉渲染”两大部分。首先,一个由多模态大模型驱动的规划器会深入分析输入的文本、视频及参考图像,并在抽象的特征空间中预设目标语义信息,形成一个不局限于像素的“语义草图”。随后,基于 Diffusion Transformer 的渲染器则承担起将这些语义规划转化为高质量、连贯的视频画面的任务,确保了最终输出的稳定性和流畅性。
这一精巧的架构设计赋予了 Bernini 在可控编辑方面的强大能力。用户可以通过简单的文本指令,实现画面天气、季节、材质及整体视觉风格的逼真自然切换。更重要的是,它能够对镜头视角、焦点以及主体动作进行精细的语义控制,例如在保持画面稳定性的前提下,自然地改变视频中动物的动作,使得 AI 视频编辑的精度达到了媲美专业后期制作软件的水平。
Bernini 在视觉参考方面同样表现出色,支持图片和视频作为输入,极大提升了创作的一致性。在视频编辑应用中,该框架能够精确地将指定材质、主体或广告海报植入视频的特定区域,同时保持边界的完整性和透视的准确性。对于全新的视频生成任务,Bernini 支持单图参考生成、多角度参考生成,并能将关键帧过渡为连续镜头,甚至能巧妙地将不相关的商品图像融合到一个虚构的角色身上,展现出强大的组合与生成能力。
为了解决在处理多视觉片段串联时模型容易混淆的问题,Bernini 引入了 SA-3D RoPE 位置编码机制。这一机制为每个视觉片段赋予了独特的标识,从而在保留时空位置关系的同时,有效区分参考素材与最终输出目标。目前,在字节内部测试中,Bernini 已达到行业领先水平。据了解,Bernini 的推理代码和第二阶段模型 Bernini-R 已开放,包含完整 MLLM 规划器的全版本也将在不久后全面上线。
Bernini 框架的出现,预示着 AI 视频创作将朝着更精细化、更易控化的方向发展。其“理解”与“生成”相结合的模式,降低了对用户专业技能的要求,未来有望赋能更多个体创作者和小型团队, democratize 视频内容的生产流程,尤其是在广告、短视频及影视预告片等领域,其精准控制和高效生成的能力将带来显著的效率提升和创意释放。不过,对于复杂叙事和高精度情感表达的视频,AI 仍需进一步的探索与优化。