Xiaohongshu Search Summarizer

自动抓取小红书关键词搜索结果,整合图文与评论生成分析报告。

已扫描
适合谁
内容创作者、市场研究人员
不适合谁
无网络环境用户、不熟悉命令行操作者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
中等(★★☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @piekill/xiaohongshu-search-summarizer

Skill 说明

命令、参数、文件名以原文为准

小红书搜索与摘要

此技能可自动从小红书(Xiaohongshu)提取高质量的多模态内容(文字 + 图片),并主动协助您生成深度整合、分析性强的最终报告。由于小红书具有严格的反爬机制,直接发起 HTTP 请求或简单爬取通常会导致 404 错误或被封禁。本技能通过 playwright-cli 在带界面的浏览器环境中模拟真实用户行为,原生绕过这些限制。

该过程分为两个阶段:

第一阶段:子代理数据收集

  1. 在带界面的浏览器中模拟在小红书上搜索关键词。
  2. 滑动图片轮播以完全加载前 N 条动态中的所有延迟加载图片。
  3. 提取标题、描述、热门评论以及所有高分辨率图片。
  4. 将图片下载至本地目录,并生成原始数据文档([keyword]_raw_data.md)。

第二阶段:AI 多模态合成(您的任务)

  1. 您必须使用文件读取功能读取 [keyword]_raw_data.md 文件。
  2. 在原始数据 Markdown 文件中,您会发现指向图片文件的路径。您必须对这些图片路径使用文件读取和视觉理解能力,真正“看到”其内容。若跳过此步骤,您仅能读取文件名,而无法获取图像实际信息!
  3. 您需分析文本内容,总结真正有用的评论(剔除如“私信我”等无意义信息),并解读您刚刚“看到”的图片语义内容(例如图表、操作指南、分步 UI 流程图等)。
  4. 您需将所有信息整合为一份结构清晰、逻辑连贯、内容丰富的综合报告,而非简单罗列各条动态。

依赖项

  • playwright-cli(必须可在系统路径中访问)
  • python3(用于下载图片并拼接原始数据 Markdown)
  • requests Python 包(运行 pip install requests)——由 parse.py 脚本调用以下载图片

使用说明

步骤 1:运行提取脚本

执行位于 scripts/run.sh 的封装脚本。支持以下参数:

/bin/bash <skill_dir>/scripts/run.sh "YOUR KEYWORD" <MAX_POSTS> <OUTPUT_DIRECTORY>
  • **YOUR KEYWORD**:要在小红书上搜索的关键字。
  • **<MAX_POSTS>**:(可选,默认值 = 10)要扫描的顶部动态数量。
  • **<OUTPUT_DIRECTORY>**:(可选,默认值 = ./)用于保存原始数据和图片的输出目录。

示例执行

/bin/bash ~/.claude/skills/xiaohongshu-search-summarizer/scripts/run.sh "openclaw使用场景" 10 "./xhs_report_openclaw_scenarios"

步骤 2:读取原始数据与图片

脚本成功运行后,请进入 OUTPUT_DIRECTORY 目录,使用您的文件读取功能,加载生成的 [keyword]_raw_data.md 文件。

该文件中包含描述、评论以及指向 post_X_img_Y.webppost_X_img_Y.jpg 的文件路径。

步骤 3:合成与摘要

这是最关键的一步。请勿直接将原始 Markdown 文件返回给用户。应撰写一份经过精心打磨的综合性 Markdown 报告,对信息进行逻辑重组,同时保留高度细节。

请严格遵守以下编排规则:

  • 不得逐条列出动态(例如避免“第1条:…… 第2条:……”)。
  • 必须读取图片:您必须对原始数据目录中 .webp.jpg 图片文件路径使用文件读取和视觉理解能力,以准确解析其内容。
  • 详尽且全面的整合:提供高度详细的摘要,涵盖不同观点、细微差异及具体实例,避免过度简化或丢失重要上下文;保留信息的丰富性与多样性。
  • 提取并合并主题:按概念、步骤、重复出现的主题或优缺点等维度进行归类整合。
  • 评估评论内容:将有价值的评论见解直接融入核心叙述中。忽略无意义或重复的内容,但保留来自评论区的多元意见或有帮助的反驳观点。
  • 图文结合呈现:将最相关、最高质量的图片嵌入报告正文,用于支撑分析论点。基于您通过视觉能力所观察到的内容,描述图片的视觉含义。
  • 保存至输出目录:使用您的文件写入能力,将最终整理好的 Markdown 报告直接保存至同一 <OUTPUT_DIRECTORY> 中(例如:<OUTPUT_DIRECTORY>/[keyword]_synthesis.md),并向用户提供该文件路径。

错误处理

若在浏览器执行过程中遇到 404 Not Found 或“元素不可见”错误:

  • 请注意,小红书可能触发登录验证。如果页面暂停等待登录,请指导用户手动检查 playwright-cli 打开的浏览器窗口,并完成必要的身份验证操作,然后重新尝试运行脚本。
P
@piekill

已收录 1 个 Skill

相关推荐