AReaL 2.0开源:Agent迈向自演进智能体
AReaL 2.0发布:赋能智能体在线持续学习
开源强化学习基础设施项目AReaL于7月2日正式推出了其2.0版本。此次更新的核心在于为已投入实际业务场景的智能体(Agent)构建了一套能够实现持续学习的系统基础设施。通过AReaL 2.0,智能体在执行真实任务过程中产生的交互数据,将被有效记录、整理并接入后续的训练流程,从而不断优化底层模型,使得智能体能够在安全可控的范围内逐步提升其能力。
智能体正日益深入企业工作流程,承担起代码编写、信息检索、工具调用等复杂任务。然而,一个核心挑战在于,尽管智能体每天都在工作,但它们却难以从这些实践中获得实质性的成长。大量的宝贵经验,例如任务完成情况、工具调用失败原因、用户反馈以及关键决策的对错,通常仅以日志形式保存,难以稳定且安全地转化为模型能力提升的养分。AReaL 2.0旨在解决的就是智能体上线后如何实现“越用越强”的关键问题。

图说:AReaL 2.0在线强化学习(Online RL)架构示意
AReaL 2.0的引入,简化了智能体能力的持续提升过程。开发者无需重新开发智能体,只需将其原先发送给大模型的请求通过AReaL 2.0的统一推理入口,即可无缝接入在线强化学习流程。以Hermes Agent为例,在正常接收任务、规划并调用模型的同时,AReaL 2.0会在后台记录其关键交互过程,并结合任务结束后的反馈信号,将这些真实轨迹用于后续训练。这种机制意味着,智能体的能力提升不再局限于人工构造数据、离线训练和重新部署的传统模式,而是能够直接利用多轮对话、工具调用、执行结果及反馈信号等真实任务中的宝贵信息。
在企业场景中,AReaL 2.0的价值尤为凸显。企业工作流中的智能体需应对不断变化的环境,包括代码库更新、业务流程调整、用户需求变化以及工具系统迭代。如果智能体的能力一旦上线便固定不变,将难以长期适应真实世界的复杂性和动态性。AReaL 2.0填补了从“会使用工具”到“能从使用中学习”之间的关键空白。更重要的是,考虑到智能体可能接触到敏感数据,如代码、客户信息和内部系统,AReaL 2.0在设计中融入了面向智能体轨迹的数据代理机制,确保真实任务数据在进入训练流程时,能够以更安全、可控的方式进行管理和使用,满足权限控制、数据脱敏、隔离和审计等企业级要求。
AReaL项目本身始于2024年,由蚂蚁集团、清华大学和香港科技大学等团队共同发起,并于2026年5月独立成为开源社区,加入PyTorch Foundation Ecosystem,进一步融入主流强化学习基础设施生态。AReaL 2.0的推出,代表着下一代智能体应用的一种演进范式:智能体不再是静态的工具,而是能够在真实环境中持续学习,将成功与失败转化为经验,并在安全边界内不断自我进化。目前,AReaL 2.0的技术报告和代码已全面开源。
AReaL 2.0的推出,为智能体在真实业务场景中的持续进化奠定了坚实的工程基础,预示着未来智能体将具备更强的适应性和智能化水平,能够更好地服务于复杂多变的实际应用需求。