阿里开源 Page Agent,大模型读懂网页
阿里巴巴近期开源的 JavaScript 客户端库 Page Agent,旨在革新浏览器自动化领域。该项目一改以往开发者依赖 Selenium、Playwright 等外部工具,通过截图或底层协议驱动网页的模式,而是将浏览器自动化能力直接集成至页面内部,实现了更原生的操作方式。

Page Agent 的核心创新在于其“DOM 脱水”技术。它摒弃了传统方案中将网页转化为图像供 AI 识别的复杂流程,而是直接在网页环境中运行,将实时的 DOM 结构压缩成一种轻量化的纯文本映射——“FlatDomTree”。这一技术使得大语言模型无需处理大量的视觉信息,仅凭精简的文本结构便能准确识别并执行诸如点击按钮、填写表单等操作指令。

这项技术带来了显著的开发效率提升。由于 Page Agent 直接嵌入页面执行,它能够无缝继承当前用户的 Cookie 和会话状态,从而省去了复杂的后端对接和身份验证步骤。该库采用了模型无关的设计理念,支持任何兼容 OpenAI 接口的大语言模型,极大地增强了其通用性。在实际应用中,Page Agent 可用于构建 SaaS 产品内的 AI 助手、实现自动化表单填写,以及提升应用程序的无障碍交互体验,为开发者提供了一种经济高效的集成方案。

Page Agent 提供的原生集成能力,允许 AI 以前所未有的方式与 Web 页面元素进行交互。其通过解析 DOM 结构来理解页面布局和元素属性,使得 AI 能够像用户一样感知并操作网页。这种“页面内”执行的模式,意味着 AI 可以直接读取页面内容,填充表单字段,甚至模拟用户点击操作,极大地降低了 AI 与 Web 应用集成的门槛,尤其适合需要实现自动化流程或增强用户交互体验的场景。
尽管 Page Agent 在操作便捷性上表现突出,但其开发者也明确了当前的技术局限。目前,该库主要专注于单页面应用范围内的自动化交互。此外,基于提示词的安全管控措施,如“禁止自动支付”,仅属于引导性约束,而非强制性的逻辑隔离。因此,对于涉及资金转移或敏感数据修改等高风险操作,开发者仍需在服务端部署严密的安全校验机制以确保数据安全。
Page Agent 已以 MIT 许可协议在 GitHub 上正式开源。对于寻求在现有应用中快速嵌入 AI 操作能力,同时希望避免高昂多模态模型成本的团队而言,这是一个值得考虑的工程化选择。