精选资源

爬虫资料库

汇总网页抓取、浏览器自动化、反爬代理、正文提取、Markdown 转换和 AI 工作流里值得优先查看的 GitHub 工具与索引。

无论你是刚开始找方案，还是准备细分选型，都可以先从常用方向入手，再进入完整资源矩阵继续挑选。

抓取框架

浏览器自动化

反爬与代理

正文提取

Markdown

AI 工作流

常用分类

按抓取任务快速找到合适工具。

持续更新

精选

Awesome 索引

先从成熟导航库和总索引切入，快速理解生态全貌。

精选

抓取框架

负责请求调度、抓取流程和工程化组织，是抓取链路的底座。

精选

浏览器自动化

用于处理前端渲染重、交互复杂、登录态严格的页面。

精选

反爬与代理

用于请求伪装、代理切换、隐匿浏览器指纹与封锁对抗。

精选

内容抽取与清洗

负责正文提取、结构解析、HTML 清洗和选择器处理。

精选

Markdown / LLM 转换

把网页和文档转换成 Markdown、结构化文本和 AI 可消费输入。

精选

AI Native 抓取

面向 agent 浏览、AI 抽取和自动化工作流的现代工具链。

候选

候选资源

适合继续观察、补充和迭代评估的工具池。

选择你的浏览方式

先按经验进入，再按分类深入

默认从新手路径开始，帮助你先确定抓取方式；熟悉生态后再进入完整资源矩阵做细分选型。

新手友好

起步路径

我要抓普通网页

适合大多数静态或半动态页面，先从抓取框架和正文提取工具开始。

scrapy/scrapy

Python 生态里最成熟的通用抓取框架，适合工程化和长期维护。

apify/crawlee

Node.js / TypeScript 抓取框架，可在 HTTP 与浏览器自动化之间切换。

adbar/trafilatura

正文提取与清洗核心工具，可输出 Markdown、JSON、XML 等格式。

先看这些

lorien/awesome-web-scraping matthewwithanm/python-markdownify

需要浏览器

起步路径

我要抓前端渲染页面

页面依赖浏览器执行、登录交互或脚本渲染时，应优先看浏览器自动化链路。

microsoft/playwright

跨浏览器自动化主流方案，适合处理复杂交互与登录态页面。

puppeteer/puppeteer

Chrome / Chromium 自动化经典方案，适合前端渲染型采集任务。

browser-use/browser-use

面向 agent 的浏览器自动化库，适合连接 AI 决策与真实浏览器执行。

先看这些

angrykoala/awesome-browser-automation SeleniumHQ/selenium

偏 AI

起步路径

我要把网页转成 Markdown / AI 可读内容

适合搜索增强、知识库构建、RAG 和 agent 输入整理等场景。

jina-ai/reader

通过 URL 前缀快速生成 LLM-friendly 页面输入，适合快速接入 AI 阅读链路。

adbar/trafilatura

正文提取与清洗核心工具，可输出 Markdown、JSON、XML 等格式。

mendableai/firecrawl

面向 AI 的网页抓取工具，支持 Markdown、结构化输出和站点级抓取。

先看这些

microsoft/markitdown unclecode/crawl4ai

反爬处理

起步路径

我要处理反爬、代理和封禁

适合处理网络指纹、浏览器可识别性、代理轮换与封锁对抗问题。

lexiforest/curl_cffi

curl-impersonate 方向的 Python 接口，适合更真实的网络指纹模拟。

venomous/cloudscraper

用于处理 Cloudflare 兼容方向的请求链路和网络层阻断。

ultrafunkamsterdam/undetected-chromedriver

适合浏览器自动化隐匿场景，降低标准驱动的可识别性。

先看这些

browser-use/browser-use unclecode/crawl4ai

继续浏览

查看相关入口

如果你已经准备继续查看帮助中心、API 与 SDK 或官方 Demo 下载，可以直接进入对应入口。

回到文档与支持总入口

进入开发手册与下载入口

查看多语言示例与官方仓库