Xiaohongshu Collector

用于小红书帖子与评论的采集，支持Cookie管理与浏览器插件集成。

已扫描

项目

内容

适合谁

需要采集小红书内容的研究人员、从事社交媒体数据分析的运营人员

不适合谁

希望进行大规模公开爬虫的用户、无技术基础且无法配置环境的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @pengluday/xiaohongshu-collector

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

小红书采集工具

概述

在处理 forbidden_company 项目中的小红书内容采集时，建议使用本技能，尤其适用于以下场景：

文章正文采集
评论分页获取
Cookie 更新
单链接刷新
浏览器插件集成

使用建议

优先使用现有仓库实现，避免重新设计流程：

scripts/collect_xiaohongshu.py
scripts/admin_server.py
scripts/run_xiaohongshu_collection.sh
browser-extension/xhs-collector/
docs/xiaohongshu-collector.md
docs/xhs-plugin-api.md

核心规则

严格保护 Cookie 隐私，最终输出中不得重复展示 Cookie 内容。
comment_limit=0 表示收集所有可用评论。
评论采集必须支持分页。
若直接调用评论 API 返回登录或账号错误，应使用浏览器渲染的备用方案。
不得依赖 Firecrawl 实现评论分页。

工作流程

确认任务是批量采集还是单链接刷新。
从 data/xiaohongshu-cookie.txt 加载保存的 Cookie，除非提供了更新后的 Cookie。
运行或更新 scripts/collect_xiaohongshu.py，传入请求的 URL、--db、--refresh-url 参数，如需完整评论则添加 --comment-limit 0。
若涉及浏览器插件开发，需将弹窗和后台脚本连接至 scripts/admin_server.py 中的本地后端接口。
验证文章数据行、评论数据行及导出成果是否正确写入。

接口映射

集成浏览器插件时，请使用以下后端接口：

GET/POST /api/xhs-cookie
GET /api/xhs-plugin/status
POST /api/xhs-plugin/collect
POST /api/xhs-plugin/refresh

验证说明

刷新模式必须先删除旧的文章记录，再写入新数据。
插件应提供可下载的 CSV 和 JSON 格式成果文件。
调试时需判断失败原因：是否为 Cookie 问题、分页逻辑问题，或页面结构变化导致。

安全提示

不得提出或实施共享服务器的大规模爬取方案。
保持浏览器/插件模型以用户驱动为主，优先本地执行。
保留原始来源链接和时间戳，确保可追溯性。

参考资料

详见 [collector-workflow.md](references/collector-workflow.md) 获取操作细节。

@pengluday

已收录 1 个 Skill