精选资源
爬虫资料库
汇总网页抓取、浏览器自动化、反爬代理、正文提取、Markdown 转换和 AI 工作流里值得优先查看的 GitHub 工具与索引。
无论你是刚开始找方案,还是准备细分选型,都可以先从常用方向入手,再进入完整资源矩阵继续挑选。
抓取框架
浏览器自动化
反爬与代理
正文提取
Markdown
AI 工作流
常用分类
按抓取任务快速找到合适工具。
持续更新
精选
4
Awesome 索引
先从成熟导航库和总索引切入,快速理解生态全貌。
精选
8
抓取框架
负责请求调度、抓取流程和工程化组织,是抓取链路的底座。
精选
7
浏览器自动化
用于处理前端渲染重、交互复杂、登录态严格的页面。
精选
3
反爬与代理
用于请求伪装、代理切换、隐匿浏览器指纹与封锁对抗。
精选
8
内容抽取与清洗
负责正文提取、结构解析、HTML 清洗和选择器处理。
精选
5
Markdown / LLM 转换
把网页和文档转换成 Markdown、结构化文本和 AI 可消费输入。
精选
4
AI Native 抓取
面向 agent 浏览、AI 抽取和自动化工作流的现代工具链。
候选
10
候选资源
适合继续观察、补充和迭代评估的工具池。
选择你的浏览方式
先按经验进入,再按分类深入
默认从新手路径开始,帮助你先确定抓取方式;熟悉生态后再进入完整资源矩阵做细分选型。
需要浏览器
起步路径
我要抓前端渲染页面
页面依赖浏览器执行、登录交互或脚本渲染时,应优先看浏览器自动化链路。
偏 AI
起步路径
我要把网页转成 Markdown / AI 可读内容
适合搜索增强、知识库构建、RAG 和 agent 输入整理等场景。
继续浏览
查看相关入口
如果你已经准备继续查看帮助中心、API 与 SDK 或官方 Demo 下载,可以直接进入对应入口。