C# 隧道代理:HttpClient 与 HttpWebRequest 两种实现
C# HttpClient + HttpWebRequest 对接爬虫代理。
Blog
围绕代理 IP、数据采集、安全合规和工程稳定性,分享可复用的实践文章。
C# HttpClient + HttpWebRequest 对接爬虫代理。
npm install -g agent-browser,一个命令打开浏览器,snapshot 获取页面结构,click/fill 操作元素。
CloakBrowser 渲染 SPA/JS 页面 → Trafilatura 提取正文。解决「要 JS 渲染的站没法提取正文」的问题。
Rust reqwest + isahc 对接爬虫代理,含 HTTPS Tunnel 限制说明。
Ruby Faraday + HTTParty 对接爬虫代理。
自定义提取策略、语言检测、离线批量处理和增量更新策略。
Swift Alamofire + URLSession 对接爬虫代理。
从单页提取到百万级批量采集的架构演进:并发控制、代理轮换、错误处理、存储管道。
Perl LWP 对接爬虫代理。
深入 Trafilatura 提取引擎,对比 readability/newspaper3k/boilerpy3,看 benchmark 数据。