Media Crawler

支持小红书、抖音等多平台公开信息采集，可命令行或WebUI操作，结果导出多种格式。

已扫描安全风险

项目

内容

适合谁

内容研究员、市场分析师

不适合谁

商业爬虫滥用者、无合规意识的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @excalibur9527/mediacrawler-skill

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

MediaCrawler

基于 [MediaCrawler](https://github.com/NanmiCoder/MediaCrawler.git) 的多平台公开信息采集工具。

支持平台

小红书（xhs）
抖音（dy）
快手（ks）
B站（bili）
微博（wb）
贴吧（tieba）
知乎（zhihu）

功能特性

自动安装依赖
关键词搜索采集
指定帖子/内容 ID 采集
创作者主页采集
评论/二级评论抓取
登录态缓存
WebUI 可视化操作
多种数据存储（CSV, JSON, JSONL, Excel, SQLite, MySQL, MongoDB）
结果文件快速定位

Usage

安装环境

bash scripts/setup.sh

查看帮助

cd "$PROJECT_PATH"
uv run main.py --help

运行采集

小红书 - 关键词搜索

uv run main.py --platform xhs --lt qrcode --type search --keywords "护肤" --headless false

抖音 - 关键词搜索

uv run main.py --platform dy --lt qrcode --type search --keywords "护肤" --headless false

指定帖子详情抓取

uv run main.py --platform xhs --lt qrcode --type detail --specified_id "帖子ID1,帖子ID2"

创作者主页抓取

uv run main.py --platform xhs --lt qrcode --type creator --creator_id "创作者ID1"

启动 WebUI

uv run uvicorn api.main:app --port 8080 --reload

启动后访问：

http://127.0.0.1:8080

数据存储

根据 config/base_config.py 中：

SAVE_DATA_OPTION = "jsonl"
SAVE_DATA_PATH = ""

默认结果保存到：

data/{平台}/{存储格式}/

例如抖音 JSONL：

data/douyin/jsonl/search_contents_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_comments_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_creators_YYYY-MM-DD.jsonl

例如小红书 JSONL：

data/xiaohongshu/jsonl/search_contents_YYYY-MM-DD.jsonl
data/xiaohongshu/jsonl/search_comments_YYYY-MM-DD.jsonl

如果你设置了：

--save_data_path "/your/custom/path"

则结果会写入你指定的目录。

快速查看结果

bash scripts/show_results.sh

该脚本会列出当前项目下 data/ 目录中的结果文件。

前置依赖

Git
uv（脚本可自动安装）
Playwright 浏览器驱动（脚本自动安装 Chromium）

注意事项

仅供学习和研究使用
禁止用于非法用途或侵犯他人合法权益
禁止用于商业化违规爬取
执行前应确认目标行为合法合规

@excalibur9527

已收录 1 个 Skill