Nanobrowser 源代码解析:多智能体采集循环——Executor 如何驱动 Planner + Navigator 爬取多页
Executor 的核心是一个 for 循环:Planner 每 N 步规划一次方向,Navigator 每次执行一个操作。Planner 说完成了就停,Navigator 说完成了让 Planner 验证。连续失败超过上限就放弃。
Blog
当前标签共有 3 篇文章。
Executor 的核心是一个 for 循环:Planner 每 N 步规划一次方向,Navigator 每次执行一个操作。Planner 说完成了就停,Navigator 说完成了让 Planner 验证。连续失败超过上限就放弃。
getClickableElements 遍历 DOM 找出可交互元素。hashDomElement 用三层哈希(分支路径 + 属性 + XPath)给每个元素一个唯一指纹。一个 30 行的迭代栈替代了递归的 DOM 遍历。
getMarkdownContent 用 turndown 把 DOM 转成 Markdown。getReadabilityContent 用 Mozilla Readability 提取文章正文。两条管线在 service.ts 里只有 40 行,但背后的设计取舍值得爬虫开发者了解。