Agent-Browser：Vercel 开源的 Rust 高性能浏览器自动化工具

浏览器自动化一直是 Web 开发和测试的刚需。从早期的 Selenium 到后来的 Puppeteer、Playwright，这个领域经历了多代技术迭代。但当你把这些工具用在 AI Agent 场景时，总会感觉有些「不够贴合」——它们是为人类开发者设计的，而不是为 AI 模型优化的。

Vercel Labs 最近开源的 Agent-Browser，试图解决这个问题。

为什么需要为 AI 专门设计浏览器？

传统的浏览器自动化工具主要服务于两个场景：

自动化测试：验证页面功能是否正常
数据抓取：模拟用户行为获取网页内容

这两个场景的核心用户是人类开发者，API 设计也围绕着「如何让人类更方便地控制浏览器」展开。但 AI Agent 有完全不同的需求：

AI 需要理解页面结构，而不只是操作它。

Agent-Browser 的核心设计哲学是「AI-first」。它提供的能力不是「点击坐标 (x, y)」，而是「找到提交按钮并点击」。通过 accessibility tree（无障碍树）快照，AI 模型可以获得页面的语义化描述，而不是原始的 DOM 结构。

Rust 重写的性能优势

Agent-Browser 使用 Rust 构建，这带来了几个明显的好处：

特性	传统方案 (Node.js)	Agent-Browser (Rust)
启动速度	数百毫秒	数十毫秒
内存占用	较高	较低
并发能力	受限于 Node.js 事件循环	原生多线程
二进制体积	需依赖 Node.js 运行时	单文件可执行

对于需要频繁启动浏览器实例的 AI Agent 工作流来说，启动速度和资源占用是关键指标。Rust 的零成本抽象让 Agent-Browser 在这方面有天然优势。

核心功能一览

Agent-Browser 提供了一套完整的 CLI 命令，可以直接在终端或脚本中使用：

# 基础导航
agent-browser open example.com

# 获取 accessibility tree（最适合 AI 的格式）
agent-browser snapshot

# 通过 ref 交互（snapshot 返回的引用 ID）
agent-browser click @e2
agent-browser fill @e3 "test@example.com"

# 传统选择器也支持
agent-browser click "#submit"

# 截图与 PDF
agent-browser screenshot page.png --annotate
agent-browser pdf document.pdf

snapshot 命令返回的 accessibility tree 是 Agent-Browser 的亮点。与传统的 HTML 抓取相比，这种格式：

去除了样式、脚本等无关信息
保留了页面语义结构（按钮、链接、输入框的角色）
包含可交互元素的引用 ID，便于后续操作

对于 LLM 来说，处理这种结构化的语义数据比解析原始 HTML 要高效得多。

AI 对话模式

Agent-Browser 还内置了一个有趣的「对话模式」：

# 单条指令
agent-browser chat "搜索 OpenAI 的最新博客文章"

# 交互式 REPL
agent-browser chat

这个模式让 AI 可以直接用自然语言控制浏览器，而不需要编写具体的自动化脚本。对于快速原型或一次性任务，这种方式非常方便。

Chrome for Testing 集成

Agent-Browser 使用 Google 官方的 Chrome for Testing 通道，确保浏览器版本与自动化功能兼容。首次运行时需要执行：

agent-browser install

Linux 用户还需要安装系统依赖：

agent-browser install --with-deps

这种设计避免了「本地 Chrome 版本与驱动不匹配」的常见问题。

安装方式

Agent-Browser 提供多种安装方式：

# npm
npm install -g agent-browser

# Homebrew
brew install agent-browser

# Cargo
cargo install agent-browser

升级也很方便：

agent-browser upgrade

对比传统方案

工具	定位	语言	AI 友好度	适用场景
Selenium	通用自动化	Java/Node.js	⭐⭐	传统测试
Puppeteer	Chrome 专用	Node.js	⭐⭐⭐	网页抓取
Playwright	跨浏览器	Node.js	⭐⭐⭐⭐	现代测试
Agent-Browser	AI Agent 专用	Rust	⭐⭐⭐⭐⭐	AI 工作流

Playwright 也提供了 accessibility tree API，但 Agent-Browser 从一开始就为这个场景优化。它的 CLI 设计、性能特性和输出格式都体现了「AI-first」的思路。

实际应用场景

Web 数据提取 Agent-Browser 的 accessibility tree 输出天然适合 LLM 解析。你可以直接让 AI 读取 snapshot 结果，然后提取所需信息，无需复杂的 CSS 选择器。

自动化表单填写 通过语义化引用（@e1, @e2 等），AI 可以精确定位表单元素，而不依赖可能变化的 CSS 类名。

网页截图与审计 --annotate 选项会在截图上标注可交互元素的编号，方便人机协作时快速定位问题。

Agent 工作流集成 Agent-Browser 可以嵌入到更大的 AI Agent 系统中，作为「浏览器能力」的标准接口。配合 MCP（Model Context Protocol），可以实现更复杂的跨工具协作。

生态位置

Agent-Browser 的发布时机很有意思。Vercel 正在大力投资 AI 基础设施（Next.js AI SDK、AI Chatbot 模板等），Agent-Browser 是这个版图的重要一块。

它的定位不是取代 Playwright 或 Puppeteer，而是填补「AI 原生浏览器自动化」这个细分领域。对于构建 AI Agent 的开发者来说，这是一个值得关注的工具。

总结

Agent-Browser 代表了浏览器自动化工具的下一个进化方向：从「为人类开发者设计」转向「为 AI 模型优化」。Rust 带来的性能提升是锦上添花，真正的价值在于 accessibility-first 的设计哲学。

如果你正在构建需要浏览器交互的 AI Agent，或者只是厌倦了传统工具的臃肿，Agent-Browser 值得一试。

🔗 相关链接

GitHub: vercel-labs/agent-browser
Chrome for Testing: 官方文档