精选资源

爬虫资料库

汇总网页抓取、浏览器自动化、反爬代理、正文提取、Markdown 转换和 AI 工作流里值得优先查看的 GitHub 工具与索引。

无论你是刚开始找方案,还是准备细分选型,都可以先从常用方向入手,再进入完整资源矩阵继续挑选。

抓取框架
浏览器自动化
反爬与代理
正文提取
Markdown
AI 工作流

常用分类

按抓取任务快速找到合适工具。

持续更新
精选
4

Awesome 索引

先从成熟导航库和总索引切入,快速理解生态全貌。

精选
8

抓取框架

负责请求调度、抓取流程和工程化组织,是抓取链路的底座。

精选
7

浏览器自动化

用于处理前端渲染重、交互复杂、登录态严格的页面。

精选
3

反爬与代理

用于请求伪装、代理切换、隐匿浏览器指纹与封锁对抗。

精选
8

内容抽取与清洗

负责正文提取、结构解析、HTML 清洗和选择器处理。

精选
5

Markdown / LLM 转换

把网页和文档转换成 Markdown、结构化文本和 AI 可消费输入。

精选
4

AI Native 抓取

面向 agent 浏览、AI 抽取和自动化工作流的现代工具链。

候选
10

候选资源

适合继续观察、补充和迭代评估的工具池。

选择你的浏览方式

先按经验进入,再按分类深入

默认从新手路径开始,帮助你先确定抓取方式;熟悉生态后再进入完整资源矩阵做细分选型。

继续浏览

查看相关入口

如果你已经准备继续查看帮助中心、API 与 SDK 或官方 Demo 下载,可以直接进入对应入口。