微软 Webwright 开源，网页智能体迈入代码时代

作者 V科技发布时间 2026年05月26日 15:17 浏览量 10 0 评论

微软研究院近期推出了一款名为 Webwright 的全新网页智能体框架，旨在革新 AI 在复杂网页任务中的执行方式。该框架摆脱了以往依赖“截图/DOM 点击”预测的模式，转而赋能 AI 模型直接在终端内生成和执行 Playwright 代码以及 Bash 命令，从而实现更高效、更具逻辑性的网页自动化操作。

Webwright 的核心设计理念聚焦于“终端优先”范式，强调通过极简化的架构实现高效运作。整个框架的代码量控制在约 1,000 行，主要由三个模块构成：负责核心逻辑管理、上下文与执行的 Runner（约150行）；提供统一模型交互接口，支持 OpenAI、Anthropic 等多种后端模型的 Model Endpoint（约550行）；以及一个隔离的终端执行环境 Terminal Environment（约300行），允许模型在此环境中运行 Playwright 脚本、解析日志、分析截图并进行调试。其工作流程为，Runner 将任务上下文传递给模型，模型生成思考过程与 Shell 命令，环境执行并返回结果，直至任务完成。

与主流的“点击式”操作模式相比，Webwright 的代码驱动方法展现出显著优势。通过生成可重用的 RPA 脚本，它克服了传统方法效率低下和状态维持困难的瓶颈。代码的强大表达能力使得 AI 能够更轻松地处理如填写表单、跨页面操作、条件跳转等长链路和复杂逻辑任务。此外，在代码执行出错后，模型能够通过分析堆栈信息进行自主纠错，进入“写代码-运行-报错-修复”的迭代循环，大幅提升了任务的成功率。

针对智能体执行任务时常见的“伪成功”和“上下文膨胀”两大痛点，Webwright 引入了创新性的解决方案。框架内置了“门控自检机制”，要求模型在声明任务完成前，必须先生成“自检配置”并干净地运行最终脚本，通过自我反思来确认任务是否真正达成。同时，为了应对长轨迹导致的上下文超载问题，系统每执行20步就会将历史对话压缩为一份概要摘要，确保上下文窗口始终聚焦于核心进展，提高处理效率。

V科技点评

在 2026 年 5 月的基准测试中，Webwright 的性能表现令人瞩目。在 Online-Mind2Web 测试中，基于 GPT-5.4 的 Webwright 在 100 步预算内达到了 86.67% 的准确率，显著领先于同类开源方案。在 Odysseys 长链路任务测试中，面对平均 272 词的复杂指令，Webwright + GPT-5.4 取得了 60.1% 的得分，相较于基础 GPT-5.4 实现了约 81.5% 的性能增幅，并超越了当月榜单的冠军模型 Opus4.6。

Webwright 的发布标志着 AI 网页智能体正朝着“开发者范式”转型，将浏览器视为一个可编程的端点，而非简单的交互界面。这种模式极大地提升了 AI 网页任务的执行效率和鲁棒性。对于开发者而言，Webwright 不仅是一个强大的智能体框架，更是一个能够自动化编写、维护和打包脚本的得力助手，目前该项目已在 GitHub 开源。

微软 Webwright 开源，网页智能体迈入代码时代

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

微软 Webwright 开源，网页智能体迈入代码时代

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复