字节跳动开源3B大模型:融合图视理解与生成
字节跳动近期开源了其自主研发的原生统一多模态大模型 Lance,该模型以其30亿(3B)的精简参数量,在多模态理解与生成任务上实现了全功能覆盖,打破了传统理解模型(VLM)与生成模型(DiT/Diffusion)之间的技术壁垒。
Lance 的独特之处在于其“原生统一”的设计理念,它从零开始训练,将图像/视频的理解、生成以及跨模态编辑能力整合于单一模型体系之中。与当前业界普遍采用的“拼积木”式组合大模型不同,Lance 能够独立完成从文本/视觉输入到文本/图像/视频输出的完整流程 ($X rightarrow T$、 $X rightarrow I$、 $X rightarrow V$),无需依赖多个独立模型协同工作。

在技术实现上,Lance 采用了“共享上下文 + 能力解耦并行”架构。首先,不同模态的输入被转化为统一的“交错序列”,并送入“双流专家架构(Dual-Stream MoE)”。其中,“理解侧”利用 Qwen2.5-VL 和 ViT 编码器提取高层语义,而“生成侧”则通过 Wan2.2 的3D 因果 VAE 进行高效编码,保留精细的动态连续表示。此外,Lance 独创的 MaPE(模态感知旋转位置编码)机制,通过为不同模态组添加固定时间偏移量,有效隔离模态边界,解决了长序列中多模态输入易产生的“边界混淆”问题。
Lance 的训练过程尤为值得关注,它以极高的“财务责任感”在128张 GPU 的预算内完成。通过预训练(1.5T Tokens)、持续训练(300B Tokens)、监督微调(72B Tokens)和强化学习(GRPO算法)四个阶段的精细化迭代。特别是在强化学习阶段,Lance 罕见地引入 PaddleOCR 作为奖励模型,专门针对性地优化了 AI 在图像中文字渲染不准和图文不对齐的顽疾。
Lance 凭借其3B的精简体积,在多项基准测试中取得了越级表现。在视频生成方面,其 VBench 得分达到 85.11分,超越了纯视频生成模型。在图像生成(GenEval)中,总分达到 0.90,跻身全球开源模型前列。而在视频理解(MVBench)测试中,Lance 获得 62.0分,远超体积更大的专用理解模型。这种跨任务数据协同带来的性能提升,是其能够以小博大的关键。
Lance 的开源预示着多模态AI应用部署成本将出现“断崖式下跌”。此前开发需要整合多个大模型才能实现的需求,现在一个 Lance 模型即可胜任,极大降低了系统复杂度和部署门槛。其极低的参数量使得企业端侧和服务器端的部署成本、推理延迟和算力消耗大幅降低,预计将加速AI短剧、智能体协作、互动媒体等领域的发展和普及。Lance 目前的公测环境要求相对亲民,最低40GB显存的消费级显卡即可驱动。