英伟达开源 Polar 框架,AI 编码智能体强化学习零门槛
英伟达开源 Polar 框架,简化代码智能体强化学习训练
英伟达(NVIDIA)研究团队于 5 月 28 日发布了名为 Polar 的开源强化学习训练框架,旨在打破现有主流代码智能体(Agent)在接入强化学习训练时的技术壁垒。该框架的核心亮点在于,它能够让 Codex、Claude Code、Qwen Code 等现有代码智能体在无需修改任何原生代码的前提下,无缝集成 GRPO(广义相对策略优化)强化学习训练流程。

AI 编码助手面临的训练瓶颈
当前,代码智能体正从执行单一指令的任务,演进至能够处理复杂长链式操作,例如大规模代码库重构或操作系统级交互。在此过程中,开发者越来越依赖于成熟的执行框架(Harness)来协调智能体的行为。然而,将这些复杂的执行框架接入传统的强化学习训练基础设施,面临着严峻的挑战。传统方法要求开发者将代码逻辑强制转换为标准的 `env.init()`、`env.step()` 等接口格式,这一过程不仅极其繁琐,而且往往会导致关键信息(如工具调用细节、多轮对话上下文或子智能体协作逻辑)的丢失,从而影响模型获取高质量的训练信号。

Polar 框架的创新性解决方案
Polar 框架另辟蹊径,它并非要求对现有的执行框架进行修改,而是将“模型 API 边界”视为强化学习训练的切入点。通过在代码执行框架与模型推理服务器之间设置一个透明的代理(Gateway),Polar 能够以“黑盒”的方式,无缝拦截并转发来自不同供应商(如 Anthropic、OpenAI 或 Google)的 API 请求。在转发过程中,Polar 会实时记录提示词、采样 Token 以及对数概率等关键训练信息,并将其重构为强化学习训练器所需的“轨迹”数据。此外,Polar 采用了高效的异步架构,由 Rollout Server 负责调度和数据持久化,Gateway Node 则处理生命周期管理和资源回收。结合预热缓冲池(READY buffer)和并行任务处理机制,该系统能有效避免长尾任务对 GPU 训练造成的阻塞,显著提升训练效率。
性能大幅提升,训练效率倍增
实验数据显示,Polar 框架与 GRPO 训练相结合,能够为代码智能体带来显著的性能提升。在 SWE-Bench Verified 基准测试中,使用同一个 Qwen3.5-4B 底座模型,接入不同代码框架后的表现差异巨大。例如,在 Codex 框架下,模型的 pass@1 分数从原先的 3.8% 飙升至 26.4%,增幅高达 594.74%;在 Claude Code 框架下,分数从 29.8% 提升至 34.6%;在 Pi 框架下,分数也从 34.2% 提升至 40.4%。更值得关注的是,通过引入 prefix_merging 策略,Polar 框架在训练时钟时间上比传统的 per_request 模式缩短了约 5.39 倍,同时 GPU 利用率也从 20.4% 跃升至 87.7%,极大地提升了训练效率和资源利用率。
Polar 框架的出现,为 AI 智能体领域的研究与开发提供了更便捷、高效的强化学习训练路径。它允许研究人员在不修改现有代码库的情况下,利用海量开源代码框架进行训练,降低了 GPU 算力需求和技术门槛。对于开发者而言,Polar 解决了模型适配训练框架的痛点,使得 AI 编码智能体的进化过程更加标准化和高效。这预示着 AI 智能体的训练将从实验室阶段的手动调优,加速迈向规模化、系统化的工程化生产模式。