Blog

标签：源代码

当前标签共有 3 篇文章。

技术指南2026年4月11日5 分钟阅读亿牛云技术团队

Nanobrowser 源代码解析：多智能体采集循环——Executor 如何驱动 Planner + Navigator 爬取多页

Executor 的核心是一个 for 循环：Planner 每 N 步规划一次方向，Navigator 每次执行一个操作。Planner 说完成了就停，Navigator 说完成了让 Planner 验证。连续失败超过上限就放弃。

技术指南2026年4月10日5 分钟阅读亿牛云技术团队

getClickableElements 遍历 DOM 找出可交互元素。hashDomElement 用三层哈希（分支路径 + 属性 + XPath）给每个元素一个唯一指纹。一个 30 行的迭代栈替代了递归的 DOM 遍历。

技术指南2026年4月9日5 分钟阅读亿牛云技术团队

getMarkdownContent 用 turndown 把 DOM 转成 Markdown。getReadabilityContent 用 Mozilla Readability 提取文章正文。两条管线在 service.ts 里只有 40 行，但背后的设计取舍值得爬虫开发者了解。