Media Crawler

支持小红书、抖音等多平台公开信息采集,可命令行或WebUI操作,结果导出多种格式。

已扫描安全风险
适合谁
内容研究员、市场分析师
不适合谁
商业爬虫滥用者、无合规意识的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @excalibur9527/mediacrawler-skill

Skill 说明

命令、参数、文件名以原文为准

MediaCrawler

基于 [MediaCrawler](https://github.com/NanmiCoder/MediaCrawler.git) 的多平台公开信息采集工具。

支持平台

  • 小红书(xhs)
  • 抖音(dy)
  • 快手(ks)
  • B站(bili)
  • 微博(wb)
  • 贴吧(tieba)
  • 知乎(zhihu)

功能特性

  • 自动安装依赖
  • 关键词搜索采集
  • 指定帖子/内容 ID 采集
  • 创作者主页采集
  • 评论/二级评论抓取
  • 登录态缓存
  • WebUI 可视化操作
  • 多种数据存储(CSV, JSON, JSONL, Excel, SQLite, MySQL, MongoDB)
  • 结果文件快速定位

Usage

安装环境

bash scripts/setup.sh

查看帮助

cd "$PROJECT_PATH"
uv run main.py --help

运行采集

小红书 - 关键词搜索

uv run main.py --platform xhs --lt qrcode --type search --keywords "护肤" --headless false

抖音 - 关键词搜索

uv run main.py --platform dy --lt qrcode --type search --keywords "护肤" --headless false

指定帖子详情抓取

uv run main.py --platform xhs --lt qrcode --type detail --specified_id "帖子ID1,帖子ID2"

创作者主页抓取

uv run main.py --platform xhs --lt qrcode --type creator --creator_id "创作者ID1"

启动 WebUI

uv run uvicorn api.main:app --port 8080 --reload

启动后访问:

http://127.0.0.1:8080

数据存储

根据 config/base_config.py 中:

SAVE_DATA_OPTION = "jsonl"
SAVE_DATA_PATH = ""

默认结果保存到:

data/{平台}/{存储格式}/

例如抖音 JSONL:

data/douyin/jsonl/search_contents_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_comments_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_creators_YYYY-MM-DD.jsonl

例如小红书 JSONL:

data/xiaohongshu/jsonl/search_contents_YYYY-MM-DD.jsonl
data/xiaohongshu/jsonl/search_comments_YYYY-MM-DD.jsonl

如果你设置了:

--save_data_path "/your/custom/path"

则结果会写入你指定的目录。

快速查看结果

bash scripts/show_results.sh

该脚本会列出当前项目下 data/ 目录中的结果文件。

前置依赖

  • Git
  • uv(脚本可自动安装)
  • Playwright 浏览器驱动(脚本自动安装 Chromium)

注意事项

  • 仅供学习和研究使用
  • 禁止用于非法用途或侵犯他人合法权益
  • 禁止用于商业化违规爬取
  • 执行前应确认目标行为合法合规
E
@excalibur9527

已收录 1 个 Skill

相关推荐