字节跳动 Bernini 开源，AI 视频编辑更可控

作者 V科技发布时间 2026年06月03日 14:27 浏览量 9 0 评论

字节跳动近日向业界推出的 Bernini 框架，标志着 AI 视频生成与编辑领域底层逻辑的革新。该统一框架的核心亮点在于其“先理解、再生成”的协同机制，旨在克服传统模型在精确解析复杂文本指令时遇到的画面失控、帧间闪烁等难题，从而提升视频内容创作的稳定性和可控性。

Bernini 的创新之处在于将视频编辑工作流拆解为“语义规划”与“视觉渲染”两大部分。首先，一个由多模态大模型驱动的规划器会深入分析输入的文本、视频及参考图像，并在抽象的特征空间中预设目标语义信息，形成一个不局限于像素的“语义草图”。随后，基于 Diffusion Transformer 的渲染器则承担起将这些语义规划转化为高质量、连贯的视频画面的任务，确保了最终输出的稳定性和流畅性。

这一精巧的架构设计赋予了 Bernini 在可控编辑方面的强大能力。用户可以通过简单的文本指令，实现画面天气、季节、材质及整体视觉风格的逼真自然切换。更重要的是，它能够对镜头视角、焦点以及主体动作进行精细的语义控制，例如在保持画面稳定性的前提下，自然地改变视频中动物的动作，使得 AI 视频编辑的精度达到了媲美专业后期制作软件的水平。

Bernini 在视觉参考方面同样表现出色，支持图片和视频作为输入，极大提升了创作的一致性。在视频编辑应用中，该框架能够精确地将指定材质、主体或广告海报植入视频的特定区域，同时保持边界的完整性和透视的准确性。对于全新的视频生成任务，Bernini 支持单图参考生成、多角度参考生成，并能将关键帧过渡为连续镜头，甚至能巧妙地将不相关的商品图像融合到一个虚构的角色身上，展现出强大的组合与生成能力。

V科技点评

为了解决在处理多视觉片段串联时模型容易混淆的问题，Bernini 引入了 SA-3D RoPE 位置编码机制。这一机制为每个视觉片段赋予了独特的标识，从而在保留时空位置关系的同时，有效区分参考素材与最终输出目标。目前，在字节内部测试中，Bernini 已达到行业领先水平。据了解，Bernini 的推理代码和第二阶段模型 Bernini-R 已开放，包含完整 MLLM 规划器的全版本也将在不久后全面上线。

Bernini 框架的出现，预示着 AI 视频创作将朝着更精细化、更易控化的方向发展。其“理解”与“生成”相结合的模式，降低了对用户专业技能的要求，未来有望赋能更多个体创作者和小型团队， democratize 视频内容的生产流程，尤其是在广告、短视频及影视预告片等领域，其精准控制和高效生成的能力将带来显著的效率提升和创意释放。不过，对于复杂叙事和高精度情感表达的视频，AI 仍需进一步的探索与优化。

字节跳动 Bernini 开源，AI 视频编辑更可控

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

字节跳动 Bernini 开源，AI 视频编辑更可控

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复