阿里巴巴发布Qwen3.6-Max-Preview 编程智能新进展
阿里巴巴发布 Qwen3.6-Max-Preview,智能体编程能力再攀高峰
阿里巴巴近期宣布了其最新一代旗舰模型 Qwen 系列的早期预览版——Qwen3.6-Max-Preview。这一新模型的推出,标志着阿里巴巴在人工智能领域,尤其是在智能体编程能力方面,再次实现了重要的突破。用户目前已可在 QwenStudio 平台体验该模型的交互对话功能,并通过阿里云百炼 API 以 `qwen3.6-max-preview` 的标识进行调用。

在编程智能方面,Qwen3.6-Max-Preview 展现出了令人瞩目的实力。根据测试结果,该模型在 SWE-benchPro、Terminal-Bench2.0、SkillsBench、QwenClawBench、QwenWebBench 以及 SciCode 这六项核心编程基准测试中均取得了领先成绩。相较于前代 Qwen3.6-Plus,Qwen3.6-Max-Preview 在 SkillsBench 上的评分提升了 9.9 分,在 SciCode 上提高了 10.8 分,在 NL2Repo 和 Terminal-Bench2.0 的表现上也分别有 5.0 分和 3.8 分的进步。
不仅编程能力大幅提升,Qwen3.6-Max-Preview 在世界知识的掌握和指令遵循方面也得到了显著加强。在 SuperGPQA 世界知识评估中,模型得分提高了 2.3 分;在中文知识问答的 QwenChineseBench 测试中,分数上升了 5.3 分。此外,在 ToolcallFormatIFBench 的测试中,该模型在指令遵循方面的得分也提高了 2.8 分,显示出其更强的理解和执行复杂指令的能力。
虽然 Qwen3.6-Max-Preview 目前处于预览阶段,阿里巴巴方面表示,该模型仍在持续的开发和优化过程中。公司计划在后续版本中进一步提升其性能和功能,旨在为用户带来更强大、更智能的人工智能解决方案,特别是在自动化编程和复杂任务处理领域。
Qwen3.6-Max-Preview 的发布预示着大模型在编程领域的应用正在走向深化,其在多项基准测试中的优异表现,特别是对智能体编程能力的显著提升,有望为开发者和AI研究者带来新的机遇。