腾讯人大高瓴联手发布规划评测框架
大语言模型规划能力评测与训练新框架 PlanningBench 开源发布
腾讯混元团队联合中国人民大学高瓴人工智能学院等机构,近期推出了一个名为 PlanningBench 的全新开源框架。该框架致力于为大语言模型的规划能力提供一个可扩展且可验证的数据生成与评测体系,旨在解决当前大模型在处理复杂规划任务时存在的短板。

PlanningBench 的核心在于其系统化的设计,它从真实的规划场景出发,深入分析并抽象出任务、约束和难度等关键要素。通过这种方式,PlanningBench 构建了一个覆盖超过 30 种不同规划任务类型的数据生成与验证体系。这不仅能够有效评估大语言模型在执行规划任务时的能力水平,还能为模型的训练提供稳定且具有迁移性的奖励信号,从而引导模型生成更优化的规划方案。
该框架的任务设计涵盖了日程安排、资源调配、人力资源规划、路径优化、生产运营以及应急服务等六大类广泛的实际应用场景。这种多维度的任务覆盖,有效避免了模型在单一领域过度训练而导致的“偏科”现象,显著提升了其在多样化、复杂化实际应用场景中的泛化能力和应对能力。
PlanningBench 在难度控制方面也进行了精细化处理。它通过拆解任务的结构、约束的层级以及资源的紧张程度等多种因素,能够精确地生成具有代表性难点的数据。这意味着框架生成的数据并非简单地拉长提示词,而是直击真实世界规划难题的核心。此外,每条生成的数据实例都附带了一个详细的检查清单,用于严格评估模型输出结果是否满足输入条件、资源限制,并能够实现目标的最优性。
尤为值得注意的是,PlanningBench 在评测机制上同时兼顾了局部合规性和全局成功性。这种双重评价标准能够有效识别出那些表面上大部分环节正确,但整体上却无法执行的无效计划。对于深入诊断大型语言模型在复杂约束条件下真实规划能力的有效性,这一功能显得尤为重要。
PlanningBench 的出现,为大语言模型在复杂规划任务上的评测和训练提供了一个系统化、科学化的解决方案。通过使用 PlanningBench 生成的可验证数据进行训练,模型在处理未知规划基准和通用任务时均展现出显著的性能提升,这充分证明了其学习信号的强大通用性。该框架构建了一个由真实场景驱动、集生成、训练与迁移于一体的闭环体系,为未来人工智能规划领域的研究开辟了新的道路和工具。
对于 AI 产品而言,PlanningBench 的发布意味着大语言模型在自动化决策、任务规划、资源调度等领域的应用前景更加广阔。尤其在需要精细化、多约束条件下的规划场景,如智能制造、智慧城市管理、复杂的项目管理等,PlanningBench 提供的评测和训练方法将有助于提升模型的实际可用性和可靠性,降低其在实际落地过程中的门槛,使其能够更好地服务于各类复杂业务流程。