微软 Webwright 开源,网页智能体迈入代码时代
微软研究院近期推出了一款名为 Webwright 的全新网页智能体框架,旨在革新 AI 在复杂网页任务中的执行方式。该框架摆脱了以往依赖“截图/DOM 点击”预测的模式,转而赋能 AI 模型直接在终端内生成和执行 Playwright 代码以及 Bash 命令,从而实现更高效、更具逻辑性的网页自动化操作。

Webwright 的核心设计理念聚焦于“终端优先”范式,强调通过极简化的架构实现高效运作。整个框架的代码量控制在约 1,000 行,主要由三个模块构成:负责核心逻辑管理、上下文与执行的 Runner(约150行);提供统一模型交互接口,支持 OpenAI、Anthropic 等多种后端模型的 Model Endpoint(约550行);以及一个隔离的终端执行环境 Terminal Environment(约300行),允许模型在此环境中运行 Playwright 脚本、解析日志、分析截图并进行调试。其工作流程为,Runner 将任务上下文传递给模型,模型生成思考过程与 Shell 命令,环境执行并返回结果,直至任务完成。

与主流的“点击式”操作模式相比,Webwright 的代码驱动方法展现出显著优势。通过生成可重用的 RPA 脚本,它克服了传统方法效率低下和状态维持困难的瓶颈。代码的强大表达能力使得 AI 能够更轻松地处理如填写表单、跨页面操作、条件跳转等长链路和复杂逻辑任务。此外,在代码执行出错后,模型能够通过分析堆栈信息进行自主纠错,进入“写代码-运行-报错-修复”的迭代循环,大幅提升了任务的成功率。
针对智能体执行任务时常见的“伪成功”和“上下文膨胀”两大痛点,Webwright 引入了创新性的解决方案。框架内置了“门控自检机制”,要求模型在声明任务完成前,必须先生成“自检配置”并干净地运行最终脚本,通过自我反思来确认任务是否真正达成。同时,为了应对长轨迹导致的上下文超载问题,系统每执行20步就会将历史对话压缩为一份概要摘要,确保上下文窗口始终聚焦于核心进展,提高处理效率。
在 2026 年 5 月的基准测试中,Webwright 的性能表现令人瞩目。在 Online-Mind2Web 测试中,基于 GPT-5.4 的 Webwright 在 100 步预算内达到了 86.67% 的准确率,显著领先于同类开源方案。在 Odysseys 长链路任务测试中,面对平均 272 词的复杂指令,Webwright + GPT-5.4 取得了 60.1% 的得分,相较于基础 GPT-5.4 实现了约 81.5% 的性能增幅,并超越了当月榜单的冠军模型 Opus4.6。
Webwright 的发布标志着 AI 网页智能体正朝着“开发者范式”转型,将浏览器视为一个可编程的端点,而非简单的交互界面。这种模式极大地提升了 AI 网页任务的执行效率和鲁棒性。对于开发者而言,Webwright 不仅是一个强大的智能体框架,更是一个能够自动化编写、维护和打包脚本的得力助手,目前该项目已在 GitHub 开源。