国产Wall-OSS-0.5具身大模型开源,支持零样本部署
2026年5月,具身智能领域迎来一项技术突破:自变量机器人(X Square Robot)开源了其最新的视觉-语言-动作(VLA)模型 Wall-OSS-0.5。这一模型革新了传统“考前微调”的模式,实现了在未进行特定任务微调的情况下,即可在真实机器人上直接进行“零样本”部署,标志着具身智能模型向通用能力迈进一大步。

此前,具身智能模型在实际应用前往往需要针对具体任务进行大量微调,这使得区分模型是具备真正泛化能力还是仅掌握特定指令成为一大难题。Wall-OSS-0.5通过在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上进行预训练,打破了这一局限。在不进行任何针对性任务微调的前提下,该模型被直接部署于真实机器人,并在包括语义理解、刚性/柔性物体操作及精细化操作等17项挑战性任务上进行了测试,以验证其通用性和零样本部署能力。
测试结果显示,Wall-OSS-0.5在零样本部署场景下表现出色。例如,一个预训练步数为400k的模型版本,在17个未经过微调的任务中,有4个任务的得分超过80分(满分100)。尤其值得注意的是,该模型在“绳子收紧”这一预训练中从未出现过的柔性物体操作任务上,也取得了82分的成绩。此外,即使在需要专门微调的场景,Wall-OSS-0.5的学习效率也显著提升,在同等数据预算下,其平均任务进度较行业标杆模型π0.5领先17.5分,并在精密插入等精细化操作任务上,成功率提升近一个数量级。
Wall-OSS-0.5之所以能实现如此跨越式的进步,得益于四项关键底层技术创新。首先,“梯度桥接”技术将动作监督信号直接注入预训练主干,统一了模型的“看、说、动”能力。其次,“视觉对齐 Tokenizer”确保每个动作 Token 都承载清晰的视觉语义,赋予模型真正的“物理含义”推演能力。再次,“动作空间监督”将训练重心聚焦于轨迹整体结构,大幅提升了模型收敛效率。最后,通过“DMuon 分布式优化”等系统级优化,将异构计算开销降低了100倍,使得复杂的训练方案得以在大规模集群上实现。
Wall-OSS-0.5模型权重、训练代码及数据集接口已全栈开源。该模型的出现不仅是模型层面的更新,更重要的是它重新定义了具身智能的开发范式,从关注“单项任务成功率”转向“通用物理直觉迁移”。这标志着具身智能基座模型进入了一个可复现、可验证、可挑战的新阶段,有望显著加速通用机器人在复杂真实环境中的落地应用。