跳至正文
V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
关

搜索

V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
关

搜索

Ai资讯

微软 Webwright 开源,网页智能体迈入代码时代

V科技 作者 V科技 发布时间 2026年05月26日 15:17 浏览量 11 0 评论

微软研究院近期推出了一款名为 Webwright 的全新网页智能体框架,旨在革新 AI 在复杂网页任务中的执行方式。该框架摆脱了以往依赖“截图/DOM 点击”预测的模式,转而赋能 AI 模型直接在终端内生成和执行 Playwright 代码以及 Bash 命令,从而实现更高效、更具逻辑性的网页自动化操作。

image.png

Webwright 的核心设计理念聚焦于“终端优先”范式,强调通过极简化的架构实现高效运作。整个框架的代码量控制在约 1,000 行,主要由三个模块构成:负责核心逻辑管理、上下文与执行的 Runner(约150行);提供统一模型交互接口,支持 OpenAI、Anthropic 等多种后端模型的 Model Endpoint(约550行);以及一个隔离的终端执行环境 Terminal Environment(约300行),允许模型在此环境中运行 Playwright 脚本、解析日志、分析截图并进行调试。其工作流程为,Runner 将任务上下文传递给模型,模型生成思考过程与 Shell 命令,环境执行并返回结果,直至任务完成。

image.png

与主流的“点击式”操作模式相比,Webwright 的代码驱动方法展现出显著优势。通过生成可重用的 RPA 脚本,它克服了传统方法效率低下和状态维持困难的瓶颈。代码的强大表达能力使得 AI 能够更轻松地处理如填写表单、跨页面操作、条件跳转等长链路和复杂逻辑任务。此外,在代码执行出错后,模型能够通过分析堆栈信息进行自主纠错,进入“写代码-运行-报错-修复”的迭代循环,大幅提升了任务的成功率。

针对智能体执行任务时常见的“伪成功”和“上下文膨胀”两大痛点,Webwright 引入了创新性的解决方案。框架内置了“门控自检机制”,要求模型在声明任务完成前,必须先生成“自检配置”并干净地运行最终脚本,通过自我反思来确认任务是否真正达成。同时,为了应对长轨迹导致的上下文超载问题,系统每执行20步就会将历史对话压缩为一份概要摘要,确保上下文窗口始终聚焦于核心进展,提高处理效率。

V科技点评

在 2026 年 5 月的基准测试中,Webwright 的性能表现令人瞩目。在 Online-Mind2Web 测试中,基于 GPT-5.4 的 Webwright 在 100 步预算内达到了 86.67% 的准确率,显著领先于同类开源方案。在 Odysseys 长链路任务测试中,面对平均 272 词的复杂指令,Webwright + GPT-5.4 取得了 60.1% 的得分,相较于基础 GPT-5.4 实现了约 81.5% 的性能增幅,并超越了当月榜单的冠军模型 Opus4.6。

Webwright 的发布标志着 AI 网页智能体正朝着“开发者范式”转型,将浏览器视为一个可编程的端点,而非简单的交互界面。这种模式极大地提升了 AI 网页任务的执行效率和鲁棒性。对于开发者而言,Webwright 不仅是一个强大的智能体框架,更是一个能够自动化编写、维护和打包脚本的得力助手,目前该项目已在 GitHub 开源。

相关资讯
OpenAI AI 成功反驳 Erdős 单位距离猜想 海尔发布全球最轻AI运动外骨骼,仅重1.75公斤 乔治·霍茨警告:AI 编程智能体或成软件最大隐患 多国推大模型发布前安全评估新机制 百川智能推出 M4 大模型,AI 医疗升级全科管家 擎朗智能发布XMAN-L1人形机器人:轻量互动新标杆 Maia 3 开源 AI 国际象棋引擎发布,带来升级对局体验 Hyper3D Rodin Gen 2.5:4秒百万面,千万面级3D生成模型
暂无评论!成为第一个。

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

热门文章

  • 斑马智行接入支付宝,智能座舱体验升级 2026年4月24日
  • 法拉利纯电Luce引争议 股价应声下跌 2026年5月26日
  • 江铃易至 EV3 纯电新车上市,配备 10.1 英寸悬浮屏 2026年5月26日
  • DLSS 4.5 助《007》游戏帧数飙升 2026年5月26日
  • 学生购买MacBook可享教育优惠吗 2026年4月23日

热议文章

  • 01
    问界 M9 预订破七万台 0条评论
  • 02
    卓驭科技布局线下渠道,首推终端直营模式 0条评论
  • 03
    OpenAI AI 成功反驳 Erdős 单位距离猜想 0条评论
  • 04
    DLSS 4.5 助《007》游戏帧数飙升 0条评论
  • 05
    江铃易至 EV3 纯电新车上市,配备 10.1 英寸悬浮屏 0条评论

AI 工具精选

Mixdesk

针对全球企业的AI驱动社交客户服务和营销解决方案。

CREATUS.AI

创建美观且交互式表单的平台,无需编码。

Powered_by Agency

为SMB提供定制化的AI代理解决方案,专注于多渠道自动化。

Jeeva.ai

具备人工智能的销售代理,用于自动化潜在客户生成和客户互动。

智能汽车

  • 问界 M9 预订破七万台 2026年5月27日
  • 卓驭科技布局线下渠道,首推终端直营模式 2026年5月26日
  • 江铃易至 EV3 纯电新车上市,配备 10.1 英寸悬浮屏 2026年5月26日
  • 法拉利纯电Luce引争议 股价应声下跌 2026年5月26日
V科技 V科技 科技媒体与数码生活指南

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察。

栏目导航 深度体验 软件应用 手机与数码 行业观察 智能汽车 AI 工具 站点地图
Copyright 2026 — V科技。聚焦软件应用、手机数码、效率方法、AI 工具与行业观察。 琼ICP备2024029348号