阿里开源 Page Agent，大模型读懂网页

作者 V科技发布时间 2026年07月03日 12:28 浏览量 30 0 评论

阿里巴巴近期开源的 JavaScript 客户端库 Page Agent，旨在革新浏览器自动化领域。该项目一改以往开发者依赖 Selenium、Playwright 等外部工具，通过截图或底层协议驱动网页的模式，而是将浏览器自动化能力直接集成至页面内部，实现了更原生的操作方式。

Page Agent 的核心创新在于其“DOM 脱水”技术。它摒弃了传统方案中将网页转化为图像供 AI 识别的复杂流程，而是直接在网页环境中运行，将实时的 DOM 结构压缩成一种轻量化的纯文本映射——“FlatDomTree”。这一技术使得大语言模型无需处理大量的视觉信息，仅凭精简的文本结构便能准确识别并执行诸如点击按钮、填写表单等操作指令。

这项技术带来了显著的开发效率提升。由于 Page Agent 直接嵌入页面执行，它能够无缝继承当前用户的 Cookie 和会话状态，从而省去了复杂的后端对接和身份验证步骤。该库采用了模型无关的设计理念，支持任何兼容 OpenAI 接口的大语言模型，极大地增强了其通用性。在实际应用中，Page Agent 可用于构建 SaaS 产品内的 AI 助手、实现自动化表单填写，以及提升应用程序的无障碍交互体验，为开发者提供了一种经济高效的集成方案。

Page Agent 提供的原生集成能力，允许 AI 以前所未有的方式与 Web 页面元素进行交互。其通过解析 DOM 结构来理解页面布局和元素属性，使得 AI 能够像用户一样感知并操作网页。这种“页面内”执行的模式，意味着 AI 可以直接读取页面内容，填充表单字段，甚至模拟用户点击操作，极大地降低了 AI 与 Web 应用集成的门槛，尤其适合需要实现自动化流程或增强用户交互体验的场景。

V科技点评

尽管 Page Agent 在操作便捷性上表现突出，但其开发者也明确了当前的技术局限。目前，该库主要专注于单页面应用范围内的自动化交互。此外，基于提示词的安全管控措施，如“禁止自动支付”，仅属于引导性约束，而非强制性的逻辑隔离。因此，对于涉及资金转移或敏感数据修改等高风险操作，开发者仍需在服务端部署严密的安全校验机制以确保数据安全。

Page Agent 已以 MIT 许可协议在 GitHub 上正式开源。对于寻求在现有应用中快速嵌入 AI 操作能力，同时希望避免高昂多模态模型成本的团队而言，这是一个值得考虑的工程化选择。

阿里开源 Page Agent，大模型读懂网页

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

阿里开源 Page Agent，大模型读懂网页

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复