agent-browser 入门:AI 时代的浏览器自动化 CLI

安装、基础命令、Accessibility Tree + Ref 定位机制,以及如何配置代理用于采集任务。

亿牛云技术团队2026年5月3日2 分钟阅读

安装

全局安装(推荐)

npm install -g agent-browser
agent-browser install  # 首次自动下载 Chrome for Testing

macOS Homebrew

brew install agent-browser
agent-browser install

验证安装

agent-browser doctor

doctor 检查环境、Chrome 安装、守护进程状态,输出诊断报告。

最快的浏览器自动化流程

# 1. 打开页面
agent-browser open https://example.com

# 2. 获取页面结构(Accessibility Tree)
agent-browser snapshot

# 3. 按 ref 操作元素
agent-browser click @e2     # 点击 ref=e2 的元素
agent-browser fill @e3 "user@example.com"  # 在 ref=e3 填入文本

# 4. 截图
agent-browser screenshot page.png

# 5. 关闭
agent-browser close

整个过程不需要写任何代码,全 CLI 操作。

Snapshot + Ref 定位机制

agent-browser 与传统浏览器自动化工具最大的区别在于元素定位方式:

方式工具原理稳定性
CSS 选择器Playwright/Puppeteer依赖 DOM 结构和 class/id页面改版易失效
XPathSelenium依赖 DOM 路径页面结构变化易失效
Accessibility Refagent-browser基于可访问性树语义不变则稳定

工作流程

# 获取带 ref 的 snapshot
agent-browser snapshot

# 输出示例:
# [1] @e1 heading "Welcome"
# [2] @e2 button "Sign In"
# [3] @e3 textbox "Email"
# [4] @e4 textbox "Password"
# [5] @e5 button "Submit"

# 直接通过 ref 操作
agent-browser click @e2    # 点击 Sign In
agent-browser fill @e3 "my@email.com"
agent-browser fill @e4 "mypassword"
agent-browser click @e5    # 提交

传统选择器同样支持

agent-browser click "#submit"
agent-browser fill "#email" "test@example.com"
agent-browser find role button click --name "Submit"

常用命令速查

类别命令说明
导航open <url>打开页面
定位snapshot获取 Accessibility Tree + ref
点击click <sel>点击元素
输入fill <sel> <text>清空并填入
输入type <sel> <text>追加输入
截图screenshot [path]截屏
截图screenshot --full全页截图
截图screenshot --annotate编号标注截图
JSeval <js>执行 JavaScript
获取get title / get url获取标题/URL
获取get text <sel>获取元素文本
等待wait <ms> / wait <sel>等待
关闭close关闭浏览器

对接代理

采集目标站时,需要通过代理隐藏出口 IP:

# 设置 HTTP 代理环境变量
export HTTP_PROXY=http://user:pass@proxy.16yun.cn:8888
export HTTPS_PROXY=http://user:pass@proxy.16yun.cn:8888

# agent-browser 自动继承
agent-browser open https://example.com

也支持通过启动参数传入(查看高级用法章节)。

验证代理是否生效

# 打开 IP 检测页面
agent-browser open https://httpbin.org/ip

# 查看出口 IP
agent-browser get text body

配合亿牛云产品的推荐方案

场景代理产品配置方式
单次测试爬虫代理环境变量 HTTP_PROXY
批量采集API 代理每次操作前切换代理
长期任务独享代理固定出口,配合 session 持久化

CLI 与 AI Agent 的配合

agent-browser 的设计初衷就是给 AI Agent 使用:

# AI Agent 生成的操作序列
agent-browser batch \
  "open https://example.com/login" \
  "fill @e3 admin@example.com" \
  "fill @e4 password123" \
  "click @e5"

# 或通过 chat 模式自然语言控制
agent-browser chat "打开 example.com,登录后截取仪表盘截图"

batch 模式避免了每次命令启动新进程的开销,chat 模式让 AI 直接理解页面内容。

下一步

  • 本文介绍了基本操作和定位机制
  • 下一篇:Snapshot 与截图——让爬虫「看懂」页面的高级用法

需要企业代理方案?

我们可根据目标站点、并发规模与稳定性目标提供定制方案。