10天学会Scrapy 第1天：核心实战讲义

Part 1: Project Bootstrap and First Spider

这是《10天学会Scrapy》第 1/10 天。今天解决一个明确问题：如何把“能跑起来”升级为“可复现、可验证、可回滚”的模块化实现。

What Is Project Bootstrap and First Spider?

项目初始化与第一只可用 Spider 是把抓取流程拆成可独立验证的工作单元。结论：你今天必须交付 可分页抓取并导出 JSON 的基础 spider，否则课程目标未达成。

Beginners Scrapy Tutorial

学习约束：

只做当天模块，不跨主题扩写
必须留下命令、代码、输出、验证四类证据
发现失败必须记录修复动作

repo 文档主线（仅保留与当日模块相关目录）：

scrapy/scrapy：重点目录 docs, extras, scrapy, sep
scrapy/scrapyd：重点目录 docs, integration_tests, scrapyd, tests
scrapy-plugins/scrapy-playwright：重点目录 docs, examples, scrapy_playwright, tests

Step 1 - Environment and Baseline Setup

mkdir -p ~/scrapy-labs/day01
cd ~/scrapy-labs/day01
python3 -m venv .venv
source .venv/bin/activate
pip install scrapy==2.13.3
scrapy startproject bookslab
cd bookslab
scrapy genspider books example.16yun.cn
scrapy crawl books -O output/day01.json

Step 2 - Build the Core Module

核心代码（当日必须可运行）：

# spiders/books.py
import scrapy
 
class BooksSpider(scrapy.Spider):
    name = "books"
    start_urls = ["https://example.16yun.cn/catalogue/page-1.html"]
 
    def parse(self, response):
        for card in response.css("article.product_pod"):
            yield {
                "title": card.css("h3 a::attr(title)").get(),
                "url": response.urljoin(card.css("h3 a::attr(href)").get()),
            }
        next_href = response.css("li.next a::attr(href)").get()
        if next_href:
            yield response.follow(next_href, self.parse)

Step 3 - Run and Capture Outputs

执行后你应该拿到结构化输出文件，并能回答这两个问题：

关键字段是否完整？
输出规模是否达到当天目标？

Step 4 - Validate and Fix Failures

关键补充代码（用于补齐当日链路）：

# validate_day01.py
import json
from pathlib import Path
rows = json.loads(Path("output/day01.json").read_text())
assert len(rows) >= 200
assert all(r.get("title") for r in rows[:20])
print("day01 ok", len(rows))

Step 5 - Boundary and Acceptance

误区1：只看“命令成功”，不看数据质量。
误区2：没有验证脚本，靠肉眼判断。
误区3：一次改太多变量，无法定位问题。

验收表：

检查项	通过标准	失败信号	修复方向
输出规模	>= 200 记录	明显低于阈值	检查分页与请求路径
字段完整度	缺失率 <= 5%	title/url 空值多	回到选择器与清洗逻辑
验证脚本	pass	assert fail	对照失败行修复并重跑
回滚能力	10 分钟内恢复	修改不可逆	保留 baseline 配置

Next Steps

总结今天完成的知识点覆盖：core concepts, module implementation, validation and troubleshooting, production boundary
记录一个失败案例与修复方法，作为明天的输入
明天进入下一个 Part，保持同样的 Step 节奏