Xiaohongshu Collector

用于小红书帖子与评论的采集,支持Cookie管理与浏览器插件集成。

已扫描
适合谁
需要采集小红书内容的研究人员、从事社交媒体数据分析的运营人员
不适合谁
希望进行大规模公开爬虫的用户、无技术基础且无法配置环境的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @pengluday/xiaohongshu-collector

Skill 说明

命令、参数、文件名以原文为准

小红书采集工具

概述

在处理 forbidden_company 项目中的小红书内容采集时,建议使用本技能,尤其适用于以下场景:

  • 文章正文采集
  • 评论分页获取
  • Cookie 更新
  • 单链接刷新
  • 浏览器插件集成

使用建议

优先使用现有仓库实现,避免重新设计流程:

  • scripts/collect_xiaohongshu.py
  • scripts/admin_server.py
  • scripts/run_xiaohongshu_collection.sh
  • browser-extension/xhs-collector/
  • docs/xiaohongshu-collector.md
  • docs/xhs-plugin-api.md

核心规则

  • 严格保护 Cookie 隐私,最终输出中不得重复展示 Cookie 内容。
  • comment_limit=0 表示收集所有可用评论。
  • 评论采集必须支持分页。
  • 若直接调用评论 API 返回登录或账号错误,应使用浏览器渲染的备用方案。
  • 不得依赖 Firecrawl 实现评论分页。

工作流程

  1. 确认任务是批量采集还是单链接刷新。
  2. data/xiaohongshu-cookie.txt 加载保存的 Cookie,除非提供了更新后的 Cookie。
  3. 运行或更新 scripts/collect_xiaohongshu.py,传入请求的 URL、--db--refresh-url 参数,如需完整评论则添加 --comment-limit 0
  4. 若涉及浏览器插件开发,需将弹窗和后台脚本连接至 scripts/admin_server.py 中的本地后端接口。
  5. 验证文章数据行、评论数据行及导出成果是否正确写入。

接口映射

集成浏览器插件时,请使用以下后端接口:

  • GET/POST /api/xhs-cookie
  • GET /api/xhs-plugin/status
  • POST /api/xhs-plugin/collect
  • POST /api/xhs-plugin/refresh

验证说明

  • 刷新模式必须先删除旧的文章记录,再写入新数据。
  • 插件应提供可下载的 CSV 和 JSON 格式成果文件。
  • 调试时需判断失败原因:是否为 Cookie 问题、分页逻辑问题,或页面结构变化导致。

安全提示

  • 不得提出或实施共享服务器的大规模爬取方案。
  • 保持浏览器/插件模型以用户驱动为主,优先本地执行。
  • 保留原始来源链接和时间戳,确保可追溯性。

参考资料

详见 [collector-workflow.md](references/collector-workflow.md) 获取操作细节。

P
@pengluday

已收录 1 个 Skill

相关推荐