agent-browser 入门:AI 时代的浏览器自动化 CLI
安装、基础命令、Accessibility Tree + Ref 定位机制,以及如何配置代理用于采集任务。
亿牛云技术团队2026年5月3日2 分钟阅读
安装
全局安装(推荐)
npm install -g agent-browser
agent-browser install # 首次自动下载 Chrome for Testing
macOS Homebrew
brew install agent-browser
agent-browser install
验证安装
agent-browser doctor
doctor 检查环境、Chrome 安装、守护进程状态,输出诊断报告。
最快的浏览器自动化流程
# 1. 打开页面
agent-browser open https://example.com
# 2. 获取页面结构(Accessibility Tree)
agent-browser snapshot
# 3. 按 ref 操作元素
agent-browser click @e2 # 点击 ref=e2 的元素
agent-browser fill @e3 "user@example.com" # 在 ref=e3 填入文本
# 4. 截图
agent-browser screenshot page.png
# 5. 关闭
agent-browser close
整个过程不需要写任何代码,全 CLI 操作。
Snapshot + Ref 定位机制
agent-browser 与传统浏览器自动化工具最大的区别在于元素定位方式:
| 方式 | 工具 | 原理 | 稳定性 |
|---|---|---|---|
| CSS 选择器 | Playwright/Puppeteer | 依赖 DOM 结构和 class/id | 页面改版易失效 |
| XPath | Selenium | 依赖 DOM 路径 | 页面结构变化易失效 |
| Accessibility Ref | agent-browser | 基于可访问性树 | 语义不变则稳定 |
工作流程
# 获取带 ref 的 snapshot
agent-browser snapshot
# 输出示例:
# [1] @e1 heading "Welcome"
# [2] @e2 button "Sign In"
# [3] @e3 textbox "Email"
# [4] @e4 textbox "Password"
# [5] @e5 button "Submit"
# 直接通过 ref 操作
agent-browser click @e2 # 点击 Sign In
agent-browser fill @e3 "my@email.com"
agent-browser fill @e4 "mypassword"
agent-browser click @e5 # 提交
传统选择器同样支持
agent-browser click "#submit"
agent-browser fill "#email" "test@example.com"
agent-browser find role button click --name "Submit"
常用命令速查
| 类别 | 命令 | 说明 |
|---|---|---|
| 导航 | open <url> | 打开页面 |
| 定位 | snapshot | 获取 Accessibility Tree + ref |
| 点击 | click <sel> | 点击元素 |
| 输入 | fill <sel> <text> | 清空并填入 |
| 输入 | type <sel> <text> | 追加输入 |
| 截图 | screenshot [path] | 截屏 |
| 截图 | screenshot --full | 全页截图 |
| 截图 | screenshot --annotate | 编号标注截图 |
| JS | eval <js> | 执行 JavaScript |
| 获取 | get title / get url | 获取标题/URL |
| 获取 | get text <sel> | 获取元素文本 |
| 等待 | wait <ms> / wait <sel> | 等待 |
| 关闭 | close | 关闭浏览器 |
对接代理
采集目标站时,需要通过代理隐藏出口 IP:
# 设置 HTTP 代理环境变量
export HTTP_PROXY=http://user:pass@proxy.16yun.cn:8888
export HTTPS_PROXY=http://user:pass@proxy.16yun.cn:8888
# agent-browser 自动继承
agent-browser open https://example.com
也支持通过启动参数传入(查看高级用法章节)。
验证代理是否生效
# 打开 IP 检测页面
agent-browser open https://httpbin.org/ip
# 查看出口 IP
agent-browser get text body
配合亿牛云产品的推荐方案
| 场景 | 代理产品 | 配置方式 |
|---|---|---|
| 单次测试 | 爬虫代理 | 环境变量 HTTP_PROXY |
| 批量采集 | API 代理 | 每次操作前切换代理 |
| 长期任务 | 独享代理 | 固定出口,配合 session 持久化 |
CLI 与 AI Agent 的配合
agent-browser 的设计初衷就是给 AI Agent 使用:
# AI Agent 生成的操作序列
agent-browser batch \
"open https://example.com/login" \
"fill @e3 admin@example.com" \
"fill @e4 password123" \
"click @e5"
# 或通过 chat 模式自然语言控制
agent-browser chat "打开 example.com,登录后截取仪表盘截图"
batch 模式避免了每次命令启动新进程的开销,chat 模式让 AI 直接理解页面内容。
下一步
- 本文介绍了基本操作和定位机制
- 下一篇:Snapshot 与截图——让爬虫「看懂」页面的高级用法
需要企业代理方案?
我们可根据目标站点、并发规模与稳定性目标提供定制方案。