猫捉老鼠

顾绯 — Mon, 06 Apr 2026 19:41:16 GMT

此渲染由 Yohaku API 生成，或存排版之虞，最佳体验请往：https://blog.ovoii.io/posts/notes/cat-catches-mouse

起因

我有个小红书链接解析器，从笔记里扒标题、作者、图片、评论、统计这些信息。某天有人反馈一个分享链接解析失败：

http://xhslink.com/o/4IVKoZeuj0O

用 aiohttp 请求，跟随重定向，最后落到 /404?errorCode=-510001。浏览器打开同一个链接完全没问题。

怎么回事？

短链重定向和 xsec_token

curl 跟一下重定向链：

xhslink.com/o/4IVKoZeuj0O
  → 302 → xiaohongshu.com/discovery/item/6955f790000000001f0042e2?xsec_token=...&type=normal
    → 302 → /404?errorCode=-510001

短链先 302 到笔记页面，然后笔记页面又 302 到 404。关键参数是 URL 里的 xsec_token，这是小红书的防盗链令牌，服务端会校验它跟当前会话是不是对得上。

对比浏览器抓包里的请求，第二次多出了一批 Cookie：

a1, webId, websectiga, sec_poison_id, gid, web_session, acw_tc, abRequestId

这些 Cookie 不是服务端通过 Set-Cookie 下发的，是页面里的 JavaScript 生成的。纯 HTTP 客户端拿不到。

身份材料的两种来源

要复现路线二和路线三，必须先建立一个关键认知——cookie 不是同一类东西。有些是本地生成的、有些是服务端签发的。

类型	Cookie	怎么得到
本地生成	`a1` / `webId` / `abRequestId`	Python 代码按固定算法算出来，完全不依赖网络
本地生成	`loadts` / `webBuild` / `xsecappid`	本地时间戳、版本号、应用 ID，直接写入 cookie jar
服务端签发	`websectiga` / `sec_poison_id`	POST `/api/sec/v1/scripting`，服务端下发一段 JS，本地按固定偏移解
服务端签发	`gid` / `acw_tc`	POST `/api/sec/v1/shield/webprofile`，body 里带加密指纹，服务端 `Set-Cookie`
服务端签发	`web_session`	POST `/api/sns/web/v1/login/activate`，服务端下发，前缀 `03` / `04`

路线一不碰这两类任何一个（所以叫零 session 成本）；路线二要把 9 步跑完、拿全所有 cookie，但不调签名接口；路线三除了全部 cookie，还要自己算出 5 个签名头。

路线一：移动端 UA + CDN 域名替换

这是最朴素的一条路。桌面端要 JS 生成 Cookie 才能过校验，那换个思路，伪装成手机。直接 aiohttp 跟随 302，最终页面 HTTP 200，不需要任何 Cookie 就能拿到 HTML。

MOBILE_UA = (
    "Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) "
    "AppleWebKit/605.1.15 (KHTML, like Gecko) "
    "Version/17.0 Mobile/15E148 Safari/604.1"
)

async with aiohttp.ClientSession(
    timeout=aiohttp.ClientTimeout(total=30),
    headers={
        "User-Agent": MOBILE_UA,
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.9",
    },
) as s:
    async with s.get(share_url, allow_redirects=True) as resp:
        final_url = str(resp.url)
        html = await resp.text(errors="replace")

if "/404" in final_url or "errorCode=" in final_url:
    raise RuntimeError("笔记可能已被删除或风控命中")

想想也合理。App 里的 WebView 不一定能跑完整的反爬 JS，移动端分享链接（app_platform=ios）走了一条更宽松的路径，不校验 xsec 相关 Cookie。

代价是图片 URL 带水印，形如 http://sns-webpic-qc.xhscdn.com/202604070308//!h5_1080jpg。末尾 !h5_1080jpg 是 CDN 层面的处理指令，CDN 在出图时合成水印；去掉后缀会 403（签名路径对不上）。水印是图片处理管线的一部分，不是客户端加的。

好在小红书还有另一个 CDN 域名 sns-img-qc.xhscdn.com（还有 ci.xiaohongshu.com），按裸 image_id 直接出原图，不签名、不带水印。换域名去水印的实现：

def cdn_strip_watermark(url: str) -> str:
    clean = url.split("!")[0] if "!" in url else url     # 去掉 !h5_1080jpg 这类后缀
    path = urlparse(clean).path
    parts = path.strip("/").split("/")
    if len(parts) >= 3:
        image_path = "/".join(parts[2:])                 # 跳过 DATE 和 SIGN，只留 image_id
        return f"https://sns-img-qc.xhscdn.com/{image_path}"
    return url

从 HTML 里抠字段

移动端分享页的 HTML 里有 window.__INITIAL_STATE__ 这个变量，但里面的 note.noteDetailMap 是空对象——移动端数据注入方式不一样，笔记字段以 JSON 片段形式散落在 HTML 文本里（SSR 预渲染的 script 块、或者模板序列化产物），"nickname":"..." / "desc":"..." / "title":"..." 这种键值对就在文本里明文可读，直接 regex 扫就行。

每个字段定义一个梯队，按优先级挨个匹配，第一个非空非占位值就用：

def _first(patterns, html: str) -> str:
    for p in patterns:
        for m in re.finditer(p, html, re.I | re.DOTALL):
            val = m.group(1).strip() if m.group(1) else ""
            if val and val not in ("小红书", "小红书 - 你的生活指南"):
                return val
    return ""

标题的梯队必须加"小红书"占位过滤——</code> 标签经常是 <code>"小红书"</code> 或 <code>"小红书 - 你的生活指南"</code> 这种站名占位，遇到就跳到下一 pattern。不然兜底匹到站名一看拿到"小红书"就返回了，用户以为解析成功实际啥都没拿到：</p><pre class="language-python lang-python"><code class="language-python lang-python">title = _first([ r'<meta\s+property="og:title"\s+content="([^"]+)"', r'"title":"([^"]+)"', r"<title[^>]*>(.*?)", ], html) or "小红书内容" author_name = _first([r'"nickname":"([^"]+)"', r'"nickName":"([^"]+)"'], html) author_id = _first([r'"userId":"([^"]+)"', r'"user_id":"([^"]+)"'], html) content_raw = _first([r'"desc":"([^"]+)"', r'"content":"([^"]+)"', r'"text":"([^"]+)"'], html) stats = { "liked": _first([r'"likedCount":"?(\d+)"?'], html), "comment": _first([r'"commentCount":"?(\d+)"?'], html), "collect": _first([r'"collectedCount":"?(\d+)"?'], html), "share": _first([r'"shareCount":"?(\d+)"?'], html), } pt_ms = _first([r'"time":(\d{13})'], html) # 毫秒时间戳

content 抓到的是 JS 转义字符串，得反转义：\u002F → /、\u0026 → &、\u003D → =、\u003F → ?、\u003A → :、\n、\t、" 等。转义反得不干净的话，URL 类字段（http:\u002F\u002F...）直接用不了：

def _unescape_js_string(s: str) -> str:
    return (s.replace(r"\u002F", "/")
             .replace(r"\u0026", "&")
             .replace(r"\u003D", "=")
             .replace(r"\u003F", "?")
             .replace(r"\u003A", ":")
             .replace(r"\n", "\n").replace(r"\t", "\t")
             .replace(r"\"", '"'))

统计字段这里有个跨路线差异要记一笔：移动端 HTML 里是整数字符串（"likedCount":"857"），而 API /v1/feed 返回的是可读格式（"liked_count":"7.1万"）。两条路线同字段语义不一样，下游要拼 UI 的话得自己对齐。

话题抓取有个容易踩的坑：想从 desc 字段里的 #话题名[话题]# 模式抠，看起来能匹但结果经常碎。原因是 desc 已经被 JSON 转义，话题名里的中文经过 \uXXXX 序列化，regex 的边界判断很容易切错。正确做法是走 tagList 数组，先 locate 再 findall：

topics = []
m = re.search(r'"tagList":\s*\[(.{0,5000}?)\]', html, re.DOTALL)
if m:
    topics = re.findall(r'"name":"([^"]+)"', m.group(1))
if not topics:                                               # 兜底：去 HTML 里扫 #xxx[话题]
    topics = re.findall(r"#([^\s#\[]+)\[话题\]", html)
topics = list(dict.fromkeys(topics))[:20]                    # 去重保序，最多 20 个

tagList 是结构化来源、无转义干扰，每个话题的 name 字段原样可读，一把拿全。

图片：锚定 onix-carousel-item DOM

移动端分享页用

的结构渲染图片轮播，这个 class 名很独特不会误匹，正则抓 src 就能把图片全拿出来，每个 URL 再过 cdn_strip_watermark 换域名：

carousel = re.findall(
    r'class="onix-carousel-item"[^>]*>.*?]*src=["\']([^"\'\s]+)["\']',
    html, re.DOTALL,
)
images = [
    {"index": i, "id": image_id_from_url(u), "url": u, "raw_url": cdn_strip_watermark(u)}
    for i, u in enumerate(carousel, 1)
]

视频和实况：扫 masterUrl + 过滤水印变体

视频 URL 散点扫三种模式，每个都要过滤带水印的 _259.mp4 变体：

video_urls = []
for pat in [
    r'"masterUrl":"([^"]+)"',
    r'"master_url":"([^"]+)"',
    r'"url":"(https://v\.xhscdn\.com[^"]+)"',
]:
    for m in re.finditer(pat, html):
        v = _unescape_js_string(m.group(1))
        if "_259.mp4" in v:                                  # 带水印视频变体，跳过
            continue
        if v not in video_urls:
            video_urls.append(v)

其他后缀（_adapt_720p.mp4 / master URL 等）默认无水印。

内容类型判定

content_type 三个值：image / video / live_photo。判定顺序：

type_param = parse_qs(urlparse(final_url).query).get("type", [""])[0]

if type_param == "video" and video_urls:
    content_type = "video"
    videos = video_urls[:1]                                  # 主视频一条就够
elif video_urls:
    # 视频数跟图片数接近（比如都是 3 个），大概率是实况：每张静态图配一段 motion 视频
    content_type = "live_photo"
    live_photos = [
        {"index": i, "image_url": images[i-1]["raw_url"], "video_url": video_urls[i-1]}
        for i in range(1, min(len(images), len(video_urls)) + 1)
    ]
else:
    content_type = "image"

实况笔记下游下载时每对存成 live_01_still.jpg + live_01_motion.mp4，打包后用户在手机相册就能还原成实况效果。

实测

图片笔记：http://xhslink.com/o/4IVKoZeuj0O

note_id      : 6955f790000000001f0042e2
title        : 𝐰𝐞𝐜𝐡𝐚𝐭｜情侣头像
author       : zhang / 5cd3f6730000000012033a83
content_type : image
images       : 12 张（全部换 CDN 域名拿无水印原图）
stats        : likes=857  comments=22  collects=290  shares=200
topics       : ['今天你换头像了吗', '情侣头像', 'cp', '头像分享', '今日头像分享',
               '可爱小猫', '猫猫是世界上最可爱的生物', '每日分享', '小动物头像', '头像']
publish      : 2026-01-01T12:26:56

视频笔记：http://xhslink.com/o/Ap3mwS5Q0UD

note_id      : 69e3114b000000002202916e
title        : 仲夏可可很萌！
author       : 用眼泪把你复习一遍 / 6690bced000000000f0348e9
content_type : video
videos       : 1 条 master URL
stats        : likes=1209  comments=154  collects=160  shares=42
topics       : ['仲夏可可', '莓喵jk']
publish      : 2026-04-18T13:06:19

实况笔记：http://xhslink.com/o/LRYdx90zeV

note_id      : 69e1594b000000000b010eaf
title        : 🇫🇷尼斯老城遇到杨超越董思成
author       : 喵了个汪 / 6161f5460000000002022ced
content_type : live_photo
images       : 3 张静态图 + 逐张配对的 motion 视频
stats        : likes=7  comments=3419  collects=5392  shares=5024
topics       : ['偶遇明星', '偶遇', '杨超越', '董思成', '法国', '尼斯', '尼斯老城区']
publish      : 2026-04-17T05:48:59

三种内容类型都能出，主数据基本齐全。这条路的局限也很明确：

评论正文拿不到。评论不在分享页 HTML 里，要另打 /api/sns/web/v2/comment/page，那个接口又回到了需要完整签名的世界。
统计字段是整数而非可读格式。上面实况那条实际有 7.9 万赞，但这条路抓到的是整数 7——移动端 HTML 里点赞数就以被 CDN/SSR 截断的散落片段存在，精度不够。

路线二：PC Web 会话加 HTML 里的 `__INITIAL_STATE__`

小红书 PC 的分享页是服务端渲染的，数据直接嵌在 HTML 里：

这里面是一份几乎完整的笔记 JSON——标题、正文、图片列表（带 infoList 多分辨率变体）、作者、交互数据、话题标签、视频流信息一应俱全，而且图片 URL 是无水印的原始 CDN 链接。

不需要调 /v1/feed，也就不需要 JSVMP 签名。但有代价：得先能以"像浏览器"的状态打开这个分享页。直接 aiohttp 加一个 UA 打过去会被重定向到 /login 或 404，所以要把浏览器那一整套初始化跑一遍。

完整的 session 初始化跑下来是这 9 步，每一步产出的 cookie 会被下一步依赖：

1. GET  /                                       载入首页
2. GET  /api/sec/v1/ds?appId=xhs-pc-web         预拉 JSVMP 解密脚本
3. POST /api/redcaptcha/v2/getconfig            验证码配置
4. POST /api/sec/v1/scripting  type=ds          scripting 通道预热
5. POST /api/sec/v1/sbtsource                   上报 sbt 源
6. POST /api/sec/v1/scripting  callback=seccallback   下发 websectiga / sec_poison_id
7. POST /api/sec/v1/shield/webprofile           上报指纹 → 下发 gid
8. POST /api/sns/web/v1/login/activate          游客激活 → 下发 web_session
9. runtime bootstrap: user/me, system/config, zones,
                      homefeed/category, global/config,
                      racing_get, racing_report

少跑一步，后面某个接口就会挂。里面几个关键 cookie 的生成方式：

a1：这是整套身份的种子，完全本地生成。时间戳 hex + 30 位随机字符 + 平台码 + CRC32 校验，截前 52 位：

def gen_a1():
    hex_data = hex(int(time.time() * 1000))[2:]
    random_30 = ''.join(random.choices(
        "abcdefghijklmnopqrstuvwxyz1234567890", k=30))
    # GET_PLAT_FROM_CODE = 5（Windows 在前端 getPlatformCode 里走 other 分支返回 5）
    text = hex_data + random_30 + "5" + "0" + "000"
    crc32 = crc32_encode(text)
    return (text + str(crc32))[:52]                      # 52 字节定长

webId：MD5(a1)，跟 a1 绑定的设备标识。

websectiga 和 secpoisonid：第 6 步 POST /api/sec/v1/scripting callback=seccallback 返回一段 JS 字符串，形如 {"b":"","d":[...]})。服务端是想让你在浏览器里跑一遍 VM 解出 64 位密钥，我们静态解：

def gen_websectiga(js_text: str) -> str:
    b = re.search(r'"b":"(.*?)",', js_text).group(1)
    d = json.loads(re.search(r'"d":(.*?)\}\)', js_text).group(1))

    # 1. base64 解码 b，按每 5 个字符一组拆列表，每个字符值取 ord(c) - 1
    padding = len(b) % 4
    if padding:
        b += '=' * (4 - padding)
    decoded = base64.b64decode(b).decode('utf-8')
    decode_list = []
    chunk = []
    for c in decoded:
        if len(chunk) == 5:
            decode_list.append(chunk)
            chunk = []
        chunk.append(ord(c) - 1)
    if chunk:
        decode_list.append(chunk)

    # 2. 按 d[92]:d[93]+1 切片，再按固定偏移二次查表得到 64 个整数
    target = decode_list[d[92]:d[93]+1]
    key = [d[target[675 + i][2]] for i in range(0, 128, 2)]

    # 3. 按 for i in range(56, -1, -8) for j in range(8) 的双重循环拼 64 字符
    return "".join(chr(key[i + j]) for i in range(56, -1, -8) for j in range(8))

那一串偏移量（92 / 93 / 675 / 56 / -1 / -8 / 8）都是从 JSVMP 字节码里抠出来的 magic 数字，会随版本微调。sec_poison_id 从同一次响应的另一个字段直接取。

gid 和 acw_tc：把 80+ 字段的浏览器指纹（UA、screen、WebGL、Canvas 哈希等）序列化 → base64 → DES-ECB 加密（密钥 zbp30y86，零填充到 8 字节块）→ hex。作为 profileData POST 到 webprofile，服务端在响应里 Set-Cookie 回这两个 cookie：

def encrypt_profile_data(fp: dict) -> str:
    fp_json = json.dumps(fp, separators=(',', ':'), ensure_ascii=False)
    fp_b64 = base64.b64encode(fp_json.encode())
    cipher = DES.new(b"zbp30y86", DES.MODE_ECB)
    # 零填充到 8 字节倍数
    pad_len = 8 - len(fp_b64) % 8
    padded = fp_b64 + b'\x00' * pad_len
    return cipher.encrypt(padded).hex()

web_session：最后一步游客激活 POST /api/sns/web/v1/login/activate 空 body，服务端下发。前缀分两种：03 开头是设备级游客态，空 body POST 就能拿到；04 开头是真实登录态，只有带着已登录浏览器的 session cookie 进 activate 才能拿到。03 对 /v1/feed、分享页 HTML 这些公开数据都是够用的，真正需要 04 的是关注流、私信之类跟真实用户关系绑定的接口，跟笔记解析无关。

除此之外还会顺手写几个辅助 cookie：loadts（签名用的时间戳，每次 encrypted request 都会更新）、webBuild（等于 ARTIFACT_VERSION）、xsecappid（等于 xhs-pc-web）、abRequestId（一个 UUID）。这些缺一个都会被服务端当作异常客户端。

除了 cookie，headers 也要严格对齐。UA 里的 Chrome 版本号（比如 Chrome/147）必须和 sec-ch-ua 里的 Chromium 版本号一致，sec-ch-ua-platform、sec-ch-ua-mobile 也要给全。只要有一项对不上，签名接口就会 461。

版本同步：别把 ARTIFACT_VERSION 写死

ARTIFACT_VERSION 写死的话早晚会挂——一年多里线上从 4.83.1 一路爬到 6.7.0（LANGUAGE_VERSION 从 4.2.6 变成 4.3.5），大概一个季度一次大版本。版本落后最典型的症状是 shield/webprofile 阶段直接 471 verifyType=290：

{"msg": "当前版本过低，请刷新页面或关闭后重新打开页面", "code": 300042}

稳妥的做法是启动时去拉 https://www.xiaohongshu.com/，从返回 HTML 里找

顾の博客

活