小米开源亚毫米级精准对位大模型训练流程
小米近期公布了其视觉-语言-动作(VLA)大模型 Xiaomi-Robotics-0的完整训练流程,并将其全面开源。此举意在加速机器人掌握复杂操作技能的能力,通过少量数据即可实现高效学习。
该模型在真实机器人上进行了高效的“后训练”优化。通过利用大约20小时的特定任务数据,Xiaomi-Robotics-0成功学会了将耳机精准放入充电盒的精细动作。这项任务对机器人的空间感知精度提出了极高要求,同时需要克服因物体表面粗糙度带来的位移挑战,并能在亚毫米级精度下完成动作,实时纠正偏差,展现了其在高精度装配任务中的卓越执行潜力。

小米此次开源的不仅仅是模型权重,还包括了详细的技术报告和源代码,旨在构建一个“开箱即用”的开发生态。这种全面的开放策略大幅降低了开发者在具身智能领域的准入门槛。此前,Xiaomi-Robotics-0已在国际知名平台上获得广泛认可,并跻身全球下载量前列。
Xiaomi-Robotics-0作为一款视觉-语言-动作大模型,其核心优势在于能够融合视觉感知、语言理解和动作控制,从而实现更加智能和自主的机器人行为。对于开发者而言,这意味着可以基于此模型快速构建应用于各类场景的机器人应用,无论是工业自动化中的精密操作,还是家庭服务中的精细任务,都具备了更大的可能性。模型的输入形式涵盖了图像、文本指令等,输出则是机器人的具体动作指令,大大提升了人机交互的自然度和机器人操作的灵活性。
此次开源将极大地促进全球开发者共同协作,优化机器人的感知与执行能力,从而加速 AI 机器人在实际生产生活中的普及与应用。