AI 浏览器智能体横向对比:六大框架词元效率、反检测与架构选型

Nanobrowser、Browy、Steel、agent-browser、Camoufox、Agent-E 六大框架全维度对比——词元效率、反检测能力、部署模式、成本模型与选型指南。

亿牛云技术团队2026年6月4日7 分钟阅读

本文是"AI 智能体浏览器架构深度实战"系列的第九篇。 前八篇分别深入分析了八款工具的设计与使用。本文对所有框架进行横向对比,帮助读者根据实际需求做出选型决策。

引言:生态已分化为四个范式

截至 2026 年中,AI 浏览器智能体生态已经分化为四个截然不同的架构范式:

范式代表工具核心设计哲学
本地扩展原生Nanobrowser、Browy嵌入用户桌面浏览器,利用用户已有的身份认证和浏览信任度
云端沙盒 IaaSSteel Browser容器化无头浏览器集群,通过 REST API 管理,规模化优先
CLI / 守护进程agent-browser原生 Rust 二进制,极致速度和 Token 效率,开发者 CLI 体验
引擎级反检测CamoufoxFirefox 源码深度修改,C++ 层指纹欺骗,最高隐秘性
认知编排Agent-E / AWS AFF不关注物理控制,专注 DOM 蒸馏、任务规划、情景记忆

每种范式都有其特定的适用场景和工程权衡。本文从六个关键维度进行对比。

维度一:词元效率与 DOM 处理

这是 AI 浏览器智能体最核心的技术指标之一。智能体读取页面内容并传递给 LLM 的效率直接决定了运行成本和决策质量。

工具DOM 处理方式每步 Token 估算压缩率元素定位机制
Nanobrowser原始 DOM + 元素分类3000-5000基线DOM 路径 + 文本匹配
BrowyA11y 树索引化快照500-1000~70%索引编号点击
Steel原始 DOM(依赖上层处理)3000-5000基线CDP / Puppeteer 选择器
agent-browserA11y 树 + Ref 引用映射200-400~90%@e1, @e2 稳定引用
Camoufox格式化的 A11y 快照200-500~90%e1, e2 引用 ID
Agent-E按任务类型动态蒸馏 DOM800-2000~60%mmid 自定义属性

关键发现

  • agent-browser 和 Camoufox 在 Token 压缩上表现最佳(约 90%),两者都使用了 A11y 树
  • Agent-E 的动态蒸馏虽然压缩率不是最高,但按任务类型过滤提供了更好的语义精度
  • Nanobrowser 和 Steel 本身不做 Token 压缩,需要依赖外部 SDK 或模型来处理

维度二:反检测与隐蔽性

面对 Cloudflare Turnstile、Akamai 3.0、Datadome 等现代 WAF,浏览器的反检测能力决定了自动化任务的存活率。

工具反检测策略WAF 绕过能力引擎级深度
Nanobrowser继承用户浏览器的物理指纹极高(用户真实浏览器 + 家庭 IP)N/A(用户浏览器)
Browy继承用户浏览器的物理指纹极高(用户真实浏览器)N/A(用户浏览器)
SteelJS 垫片 + 代理轮询中等(数据中心 IP 可识别)无(标准 Chrome)
agent-browser取决于底层引擎低-中(默认 Chrome 无隐身)无(CDP 标准)
CamoufoxC++ 引擎级全向量覆盖极高(JS 检测无法穿透引擎层)最深(Firefox 源码层)
Agent-E未针对性设计低(仅标准 Playwright)

关键发现

  • Nanobrowser 和 Browy 的"高存活率"并非来自主动反检测,而是因为它们运行在用户的真实浏览器中——这是天生的优势
  • Camoufox 是唯一在引擎层实施反检测的工具,面对深度指纹扫描时优势最大
  • Steel 虽内置反检测,但云端部署使出口 IP 成为最薄弱的环节

生存率金字塔(从下到上越来越难被检测):

         ▲  Camoufox (C++ 引擎级, 极难检测)
        / \
       /   \
      /     \
     /  用户桌面浏览器 \
    /  (Nanobrowser/Browy) \
   /    CSP 级反向代理       \
  / 系统层隐写 + WebRTC 屏蔽  \
 /   JS 垫片 + 代理轮询       \
/    (Steel, agent-browser)    \
└──────────────────────────────┘

维度三:部署模式与规模化能力

工具部署方式并发模型规模化上限适合团队规模
NanobrowserChrome 扩展单浏览器单用户1个人
Browy扩展 + 本地宿主单标签页1个人
SteelDocker / 云部署多会话多实例数百数据 / QA 团队
agent-browserCLI + 守护进程单实例多命令10-50个人 / 小团队
CamoufoxDocker / VPS多实例集群数百专业采集团队
Agent-EPython 本地单实例1个人开发者

维度四:成本模型

工具软件成本模型推理成本基础设施成本
Nanobrowser免费开源自有 API Key 按量计费无(已有 Chrome)
Browy免费开源(通过 Copilot 订阅)无(已有浏览器)
Steel免费开源 / 云服务付费自有 API Key 按量计费Docker 服务器 / 云费用
agent-browser免费开源自有 API Key 按量计费无(本地 CLI)
Camoufox免费开源自有 API Key 按量计费Docker 服务器 / VPS
Agent-E免费开源自有 API Key 按量计费本地/服务器运行环境

成本最低的方案:Browy(如果你是 Copilot 订阅用户,边际推理成本为零)

灵活性最高的方案:Nanobrowser(零软件成本,可选择任意模型提供商)

规模化成本曲线

  • Nanobrowser / Browy:固定成本,但无法规模化
  • Steel / Camoufox:需要基础设施投入,但规模化后单位成本显著下降
  • agent-browser:无需基础设施,但规模化受限于单实例

维度五:学习曲线与开发者体验

工具安装复杂度学习曲线文档质量需要掌握的技能
Nanobrowser极低(Chrome 扩展一键安装)无(自然语言交互)
Browy低(扩展 + 宿主安装)无(自然语言交互)
Steel中(Docker / 云部署)优秀REST API / SDK
agent-browser低(npm install)优秀CLI 基础
Camoufox中(Docker / VPS)中高良好REST API / Docker
Agent-E高(Python + AG2 环境配置)良好Python / LLM 配置

维度六:架构创新点

每个工具都有其独特的工程创新:

工具核心创新点
Nanobrowser多智能体协作 + 自我纠错闭环:Planner/Navigator/Validator 角色分离
Browy成本套利模型:通过 Copilot 订阅实现零边际推理成本
Steel浏览器基础设施化:将 Chrome 实例管理抽象为 REST API
agent-browserRust 守护进程 + A11y 引用映射:消除冷启动 + 90% Token 压缩
CamoufoxC++ 引擎级反检测:在 JS 执行前完成所有指纹欺骗
Agent-EDOM 蒸馏 + 层次化编排:按任务类型动态过滤 DOM,批量执行操作

综合选型决策树

你的核心需求是什么?

├── **个人日常自动化**(填表、比价、信息提取)
│   ├── 已有 Copilot 订阅 → Browy
│   └── 想自由选择模型  → Nanobrowser

├── **大规模并发数据采集**
│   ├── 在乎 Token 成本  → agent-browser + 爬虫代理
│   ├── 需要强反检测     → Camoufox + 爬虫代理
│   └── 需要 Selenium 兼容 → Steel + 爬虫代理

├── **CI/CD 自动化测试**
│   └── agent-browser + Lightpanda 引擎

├── **高难度反爬对抗**(Akamai、Cloudflare Turnstile)
│   └── Camoufox + 独享代理 + GeoIP 对齐

├── **复杂表单多步骤填报**(航空值机、银行开户)
│   └── Agent-E / AWS Agentic Form Filling

└── **企业级生产环境部署**
    ├── 需要情景记忆     → AWS Agentic Form Filling
    └── 需要通用云浏览器  → Steel

选择地图:从成本到隐蔽性的二维矩阵

隐蔽性 ▲

  极高 │  Camoufox
      │  ●

  高   │  Nanobrowser ●     ● Browy

  中   │                ● Steel

  低   │  ● agent-browser
      │  ● Agent-E
      └──────────────────────────→ 成本
          低    中     高

总结

2024 年底到 2026 年中的 AI 浏览器自动化发展,展现了工程哲学的深刻分歧。

早期,行业普遍试图强迫大语言模型理解原始 HTML DOM——这种方法成本高昂且效率低下。如今,生态已经分化出四个不同的范式:本地扩展复用用户身份(Nanobrowser、Browy)、云端基础设施规模化(Steel)、原生性能极致优化(agent-browser + Lightpanda)、以及引擎级反检测(Camoufox)。而 Agent-E 和 AWS 的方案则在认知层面推动着"智能体如何理解网页"这一更深层的问题。

没有万能方案。工程取舍是真实的——速度与功能、隐蔽性与便利性、成本与规模化、个人工具与企业系统。正确的问题不是"哪个最好",而是"哪个最适合我的场景"。

下一篇文章将作为系列的收官篇,聚焦 AI 智能体爬虫实战中的代理配置与反封锁最佳实践,将前九篇文章的技术要点沉淀为可操作的生产指南。

需要企业代理方案?

我们可根据目标站点、并发规模与稳定性目标提供定制方案。