阿里发布具身智能大模型Qwen-Robot系列
阿里巴巴发布千问具身智能大模型Qwen-Robot系列
在具身智能技术加速走向实际应用的当下,如何让机器人更精准地理解指令并在多样化的真实环境中自主完成任务,已成为行业关注的焦点。阿里巴巴于6月16日正式推出了千问具身智能大模型Qwen-Robot系列,旨在为各类机器人提供一个能够理解自然语言、感知三维环境并掌握物理规律的通用智能基础。

Qwen-Robot系列集结了三款核心模型,它们不仅能够独立处理特定任务,还能互相协作,共同构建起千问家族的首个完整具身智能矩阵。其中,Qwen-RobotManip专注于核心操作执行。为克服传统模型在不同机器人平台间迁移时性能衰减的问题,该模型采用了统一的动作表征方式,并利用了超过38000小时的海量预训练语料。在第三方权威测评中,Qwen-RobotManip的多个版本在任务成功率方面位居前列,并且在处理从基础的拧水龙头到复杂的双臂倒薯条等高难度任务时,均展现出了显著的突破性能力。
为赋予机器人“认路”和“跑腿”的能力,阿里巴巴推出了Qwen-RobotNav模型。该模型将任务指令理解、目标搜索以及自动驾驶等五项关键导航功能整合在同一框架下。其创新的“任务自适应观察机制”打破了传统机器人僵化的记忆策略,使其能够灵活地实现“边走、边看、边规划”的自主导航,从而在复杂且未知的环境中高效地完成物品寻找等任务。
进一步提升机器人“思维”层面的能力,则是Qwen-RobotWorld模型的职责。这款物理世界模型能够预测机器人下一步的物理状态和动作,如同运动员在比赛前进行预演。这不仅有效解决了训练数据不足的瓶颈,还允许机器人在执行具体物理操作前进行轨迹预演,从而确保操作的绝对精准性。通过这三大模型的协同工作,具身智能系统能够实现视觉感知、语言理解和动作决策的深度融合,预示着机器人走向真实生活场景的步伐正在加快。
Qwen-Robot系列大模型的发布,标志着具身智能在理解复杂指令和执行物理任务方面迈出了重要一步。Qwen-RobotManip的通用性降低了跨平台部署的难度,Qwen-RobotNav的自适应导航能力使其在未知环境中更具实用性,而Qwen-RobotWorld的物理预测能力则保障了操作的精准与安全。这些模型的结合,使得机器人能够更好地理解用户的自然语言指令,并将其转化为在真实世界中安全、高效的物理动作,为未来智能家居、工业自动化以及服务型机器人等领域的广泛应用奠定了坚实基础。