Blog

标签：Trafilatura

当前标签共有 6 篇文章。

技术指南2026年5月1日2 分钟阅读亿牛云技术团队

Trafilatura + CloakBrowser：全文采集的完整流水线

CloakBrowser 渲染 SPA/JS 页面 → Trafilatura 提取正文。解决「要 JS 渲染的站没法提取正文」的问题。

技术指南2026年4月29日2 分钟阅读亿牛云技术团队

自定义提取策略、语言检测、离线批量处理和增量更新策略。

技术指南2026年4月27日1 分钟阅读亿牛云技术团队

从单页提取到百万级批量采集的架构演进：并发控制、代理轮换、错误处理、存储管道。

技术指南2026年4月25日3 分钟阅读亿牛云技术团队

深入 Trafilatura 提取引擎，对比 readability/newspaper3k/boilerpy3，看 benchmark 数据。

技术指南2026年4月23日2 分钟阅读亿牛云技术团队

Sitemap 发现 → Feed 更新追踪 → URL 管理 → 批量提取，一站式整站采集方案。

技术指南2026年4月21日2 分钟阅读亿牛云技术团队

pip install 开始，三行代码提取网页正文、标题、作者和发布日期。