浏览器自动化成本拆解（一）：Token、代理、服务器

一个典型采集任务的成本拆解

以一个中等规模的采集任务为例：每天 10,000 个页面，每个页面需要提取 3-5 个字段。使用 AI 浏览器智能体的成本分布在三个维度：

维度一：LLM 推理成本

模型	输入 Token 单价	输出 Token 单价	平均每步	10 步任务
Claude Haiku 3.5	$1.00/M	$5.00/M	5,000 in + 200 out ≈ $0.006	$0.06
Gemini 2.5 Flash	$0.15/M	$0.60/M	同上 ≈ $0.0009	$0.009
GPT-4o	$2.50/M	$10.00/M	同上 ≈ $0.0145	$0.145
Claude Sonnet 4	$3.00/M	$15.00/M	同上 ≈ $0.018	$0.18

10,000 个任务每天的成本区间：$90（Gemini Flash）到 $1,800（Claude Sonnet）。

代理经过 A11y 树优化（agent-browser、Camoufox 的做法），Token 消耗可以再降 90%，把成本控制在 $9 到 $180 之间。

维度二：代理流量成本

代理类型	单价	每日 10,000 请求	月成本
数据中心代理	$0.04/GB	约 $0.10	~$3
爬虫代理（隧道）	包月计费	—	$50-$200
API 代理	$0.50/GB 或按量	约 $1.50	~$45
独享代理	固定 IP 计费	—	$10-$50/月

代理成本通常在总成本的 5-15% 之间。大多数情况下不需要针对代理成本做优化——省下来没多少钱。

维度三：计算资源成本

部署方式	规格	月成本	可承载任务量
单机 Docker	4C/16G	~$50	数千/天
K8s 小集群	8C/32G × 3	~$300	数万/天
AWS r6i.large × 10	2C/16G × 10	~$800	数十万/天
云 API（Steel/Browserless）	按量	$0.001-0.01/会话	弹性

计算成本占总成本的 10-20%。

总成本结构

LLM 推理：70-85%  → 优化重点在这里
代理流量：5-15%   → 不值得花太多时间优化
计算资源：10-20%  → 用容器化可以优化但也不如优化 LLM 效果好

五个有效的成本优化方法

1. 缓存 DOM 快照

同一个页面在短时间内的 DOM 结构没变化。缓存 DOM 可以减少 Token 消耗：

class DOMCache:
    def __init__(self, ttl_seconds=300):
        self.cache = {}
        self.ttl = ttl_seconds
 
    async def get_dom(self, url, page):
        if url in self.cache:
            entry = self.cache[url]
            if time.time() - entry["time"] < self.ttl:
                return entry["dom"]
        dom = await extract_dom(page)
        self.cache[url] = {"dom": dom, "time": time.time()}
        return dom

适用场景：同一页面的多次访问、循环采集。

2. 减少截图频率

截图是 Token 消耗的大户。一张截图编码为 base64 后约 500KB，传给视觉模型时会被切分为大量 Token。只在调试和关键操作时截图。

3. 复用会话

已经登录的会话不要每次都重新登录。使用持久化配置文件（agent-browser 的 auth save/load）跨任务复用：

# 第一次登录后保存
agent-browser auth save ./session.json
 
# 后续任务直接加载，跳过登录
agent-browser auth login ./session.json
agent-browser open https://example.16yun.cn

4. 选择正确的模型

不需要什么事情都用最强模型。简单任务用 Gemini Flash 或 Haiku，复杂任务用 Sonnet 或 GPT-4o。

5. 回收不必要的代理

如果你在采集不反爬的网站，不需要住宅代理。数据中心代理就够了。代理只有在被检测到时才需要升级——不要默认用最贵的。

不值得做（或效果有限）的优化

优化手段	收益	原因
压缩网络请求	极低	代理流量的成本占比本来就低
降低截图分辨率	有限	截图成本在视觉模型中占比不固定
自建服务器替代云服务器	初期节省但运维成本转移了	带宽、维护、稳定性都是隐性成本
过度定制模型	不明确	微调一个浏览器操作模型的成本远高于直接用现成模型

总结

LLM 推理成本是 AI 浏览器自动化的绝对大头（70-85%）。代理和计算资源加起来不到 30%。优化策略的优先级：

先优化 Token 消耗（A11y 树、DOM 缓存、减少截图）
选对模型（简单任务不要用最强模型）
复用会话（减少重复登录的 Token 消耗）
最后优化代理和计算资源

AI 浏览器自动化成本分析（一）：Token、代理、服务器各花了多少钱