字节跳动开源3B大模型：融合图视理解与生成

作者 V科技发布时间 2026年05月23日 09:28 浏览量 6 0 评论

字节跳动近期开源了其自主研发的原生统一多模态大模型 Lance，该模型以其30亿（3B）的精简参数量，在多模态理解与生成任务上实现了全功能覆盖，打破了传统理解模型（VLM）与生成模型（DiT/Diffusion）之间的技术壁垒。

Lance 的独特之处在于其“原生统一”的设计理念，它从零开始训练，将图像/视频的理解、生成以及跨模态编辑能力整合于单一模型体系之中。与当前业界普遍采用的“拼积木”式组合大模型不同，Lance 能够独立完成从文本/视觉输入到文本/图像/视频输出的完整流程 ($X rightarrow T$、 $X rightarrow I$、 $X rightarrow V$)，无需依赖多个独立模型协同工作。

在技术实现上，Lance 采用了“共享上下文 + 能力解耦并行”架构。首先，不同模态的输入被转化为统一的“交错序列”，并送入“双流专家架构（Dual-Stream MoE）”。其中，“理解侧”利用 Qwen2.5-VL 和 ViT 编码器提取高层语义，而“生成侧”则通过 Wan2.2 的3D 因果 VAE 进行高效编码，保留精细的动态连续表示。此外，Lance 独创的 MaPE（模态感知旋转位置编码）机制，通过为不同模态组添加固定时间偏移量，有效隔离模态边界，解决了长序列中多模态输入易产生的“边界混淆”问题。

Lance 的训练过程尤为值得关注，它以极高的“财务责任感”在128张 GPU 的预算内完成。通过预训练（1.5T Tokens）、持续训练（300B Tokens）、监督微调（72B Tokens）和强化学习（GRPO算法）四个阶段的精细化迭代。特别是在强化学习阶段，Lance 罕见地引入 PaddleOCR 作为奖励模型，专门针对性地优化了 AI 在图像中文字渲染不准和图文不对齐的顽疾。

V科技点评

Lance 凭借其3B的精简体积，在多项基准测试中取得了越级表现。在视频生成方面，其 VBench 得分达到 85.11分，超越了纯视频生成模型。在图像生成（GenEval）中，总分达到 0.90，跻身全球开源模型前列。而在视频理解（MVBench）测试中，Lance 获得 62.0分，远超体积更大的专用理解模型。这种跨任务数据协同带来的性能提升，是其能够以小博大的关键。

Lance 的开源预示着多模态AI应用部署成本将出现“断崖式下跌”。此前开发需要整合多个大模型才能实现的需求，现在一个 Lance 模型即可胜任，极大降低了系统复杂度和部署门槛。其极低的参数量使得企业端侧和服务器端的部署成本、推理延迟和算力消耗大幅降低，预计将加速AI短剧、智能体协作、互动媒体等领域的发展和普及。Lance 目前的公测环境要求相对亲民，最低40GB显存的消费级显卡即可驱动。

字节跳动开源3B大模型：融合图视理解与生成

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

字节跳动开源3B大模型：融合图视理解与生成

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复