Agent-E 认知框架:DOM 蒸馏与层次化编排实现可靠网页导航
Agent-E 不直接操作浏览器——它通过 DOM 蒸馏(按任务类型过滤内容)、mmid 注入(自定义属性定位)、层次化组聊(执行规划器批量操作)来让 AI 更可靠地理解网页。
Blog
当前标签共有 4 篇文章。
Agent-E 不直接操作浏览器——它通过 DOM 蒸馏(按任务类型过滤内容)、mmid 注入(自定义属性定位)、层次化组聊(执行规划器批量操作)来让 AI 更可靠地理解网页。
Agent 在浏览器里跑了 50 步,中间出错了,你只看到最后一步的报错。没有操作流水、没有 DOM 快照回放、没有决策链路由。
getClickableElements 遍历 DOM 找出可交互元素。hashDomElement 用三层哈希(分支路径 + 属性 + XPath)给每个元素一个唯一指纹。一个 30 行的迭代栈替代了递归的 DOM 遍历。
getMarkdownContent 用 turndown 把 DOM 转成 Markdown。getReadabilityContent 用 Mozilla Readability 提取文章正文。两条管线在 service.ts 里只有 40 行,但背后的设计取舍值得爬虫开发者了解。