英伟达清华联手 Gamma-World 突破多智能体仿真
Gamma-World 突破多智能体视频模型瓶颈,开启虚拟世界协作新篇章
多人协作面临挑战,Gamma-World 应运而生
以往的视频世界模型在处理多智能体协同的复杂场景时,常常因其单智能体假设而显得力不从心。当多个虚拟“玩家”需要在同一环境中同时进行操作、观察并相互影响时,模型架构的局限性便凸显出来。为解决这一核心技术难题,英伟达携手清华大学、多伦多大学及 Vector Institute,共同推出了一款名为 Gamma-World(γ-World)的全新多智能体世界模型解决方案。
核心技术创新,克服三大挑战
多智能体世界建模的核心难点在于同时保持时间、跨视角以及交互过程的一致性。虽然先前的研究如 Solaris 在双人协作方面取得了一定进展,但其身份编码的置换对称性问题以及全连接注意力机制带来的计算量平方级增长,限制了其向更多主体扩展的能力。Gamma-World 通过引入“正单纯形旋转智能体编码”和“稀疏枢纽注意力机制”,巧妙地解决了这些结构性缺陷。前者通过将智能体置于几何空间的顶点,实现天然的等距与平等,无需参数即可实现跨主体泛化;后者则通过共享世界状态的枢纽 Token,将计算复杂度降低至线性,配合缓存技术,实现了每秒24帧(24FPS)的实时推演。

训练优化与实验验证,性能大幅提升
在训练策略上,Gamma-World 采用了创新的三阶段师生蒸馏法,利用双向教师模型引导因果学生模型,有效将多步采样压缩至4步,不仅确保了动作的可控性,还显著缓解了自回归推演中的误差累积问题。在多人 Minecraft 虚拟环境的多项核心场景测试中,Gamma-World 取得了远超现有最强模型的表现,视频质量评估指标 FVD 平均降幅超过40%。其通用性还得到了真实双臂机器人的协同任务验证,展现了跨场景迁移的能力。
Gamma-World 的问世,标志着多智能体仿真能力的重大飞跃。它不仅为虚拟世界的深度模拟提供了强大的新基础设施,更对物理 AI 领域展现出广阔的应用前景。未来,这一技术有望为多臂医疗协同、工厂多机器人调度以及自动驾驶等需要复杂群体交互的场景,提供全新的大规模模拟生成解决方案,推动相关领域的智能化进程。
Gamma-World 的核心优势在于其创新的架构设计,能够高效处理多人交互场景,并在保持高度准确性的同时,实现实时推演。对于需要精确模拟多人协作的AI应用,例如虚拟现实中的社交互动、复杂机器人协同作业规划等,Gamma-World 提供了极具潜力的解决方案,其输入输出形式为视频序列,模型上手门槛相对较高,主要面向研究机构和专业开发者。