Douyin Video Transcribe

从抖音视频提取音频并转录为文字，支持链接与本地文件。

已扫描

项目

内容

适合谁

内容创作者、运营人员

不适合谁

无网络环境用户、不熟悉命令行操作者

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @don068589/douyin-video-transcribe

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

抖音视频转录 - 视频转录套件

一个完整的抖音（抖音/TikTok中国版）视频转录解决方案。支持音频提取、语音转文字，以及生成结构化摘要。

版本历史

版本	变更
2.0.0	模块化架构，优化工作流，支持浏览器 DOM 提取
1.0.0	初始版本，基础转录功能

架构

用户输入（抖音链接/文件）
         │
         ▼
┌─────────────────────────────────────────┐
│           工作流调度器                   │
├─────────────────────────────────────────┤
│ 步骤 1：获取器 → 获取视频文件            │
│ 步骤 2：转录器 → 提取并转换音频          │
│ 步骤 3：分析器 → 结构化输出              │
│ 步骤 4：输出器 → 保存结果                │
└─────────────────────────────────────────┘

核心功能

视频获取：基于浏览器的 DOM 提取，获取 CDN 链接
音频提取：使用 ffmpeg 进行音频转换
语音转文字：Whisper ASR 支持多种模型选项
内容分析：自动生成结构化转录文本，包含重点信息
多格式支持：支持视频链接、本地文件、图片笔记

前置条件

工具	用途	安装方式
curl	下载文件	系统自带（Windows：`curl.exe`）
ffmpeg	音频提取与合并	`winget install Gyan.FFmpeg`
Whisper	转录服务	`pip install openai-whisper` 或使用 Docker
浏览器	视频提取	需配置 OpenClaw 浏览器配置文件

推荐：Docker 方式运行 Whisper

docker run -d -p 9000:9000 --name whisper-asr onerahmet/openai-whisper-asr-webservice:latest

工作流程

步骤 0：输入类型识别

输入类型	识别方式	操作
视频链接（`/video/`）	URL 模式匹配	执行完整流程
图片笔记（`/note/`）	URL 模式匹配	仅截图处理
本地视频文件	文件路径	从步骤 2 开始
文本输入	纯文本	从步骤 3 开始

步骤 1：获取视频

1.1 解析短链接

# Windows PowerShell
curl.exe -sL -o NUL -w "%{url_effective}" "https://v.douyin.com/xxx/"

# macOS/Linux
curl -sL -o /dev/null -w '%{url_effective}' "https://v.douyin.com/xxx/"

输出示例：https://www.douyin.com/video/7616020798351871284

1.2 打开视频页面

browser(action='open', profile='openclaw', url='https://www.douyin.com/video/{VIDEO_ID}')

等待 10-15 秒，确保页面完全加载。

1.3 提取视频地址（浏览器 DOM 方法）

browser(action='act', targetId='PAGE_ID', request={
  "kind": "evaluate",
  "fn": "(() => {
    const entries = performance.getEntriesByType('resource');
    const videoEntries = entries.filter(e => {
      const name = e.name.toLowerCase();
      return name.includes('douyinvod') &&
             (name.includes('.mp4') || name.includes('video'));
    });
    if (videoEntries.length > 0) {
      const video = videoEntries[videoEntries.length - 1];
      return {
        url: video.name,
        type: video.name.includes('.mp4') ? 'mp4' : 'dash'
      };
    }
    return null;
  })()"
})

重要提示：

act 操作需嵌套 request 对象，包含 kind 和 fn
错误写法：browser(action='act', fn='...')
正确写法：browser(action='act', request={"kind": "evaluate", "fn": "..."})

1.4 下载视频

curl.exe -L -H "Referer: https://www.douyin.com/" -o video.mp4 "<CDN_URL>"

Referer 头部为必填项，否则返回 403 错误。

步骤 2：转录音频

2.1 提取音频

# 对于 MP4 视频
ffmpeg -i video.mp4 -ar 16000 -ac 1 -c:a pcm_s16le audio.wav -y

# 对于 DASH 视频（需合并）
ffmpeg -i video.mp4 -i audio.mp4 -c copy merged.mp4 -y
ffmpeg -i merged.mp4 -ar 16000 -ac 1 -c:a pcm_s16le audio.wav -y

参数说明：

-ar 16000：16kHz 采样率（Whisper 要求）
-ac 1：单声道
-c:a pcm_s16le：16 位 PCM 编码

2.2 使用 Docker Whisper 转录

curl.exe -X POST "http://localhost:PORT/asr" -F "audio_file=@audio.wav"

2.3 替代方案：本地运行 Whisper

python -m whisper audio.wav --model small --language zh

模型选择建议：

模型	大小	5 分钟视频（CPU）	准确率	使用场景
tiny	75MB	~30秒	一般	快速预览
base	142MB	~1分钟	良好	日常使用
small	466MB	~3分钟	更佳	推荐
medium	1.5GB	~8分钟	最佳	高精度需求

步骤 3：内容分析

智能代理对转录文本进行处理，生成：

修正转录错误

- 纠正同音字

- 修正发言者姓名

- 去除语气词

结构化内容

- 添加段落分隔

- 划分章节

提取关键要点

- 核心观点

- 重要引述

生成标签

- 3-5 个主题标签

步骤 4：保存输出

转录文件格式

# {标题}

**作者**: {作者}
**来源**: 抖音
**日期**: {日期}
**转录时间**: {转录日期}

---

## 摘要

{摘要内容}

---

## 正文

{带段落分隔的转录正文}

---

## 要点

- {要点 1}
- {要点 2}
- {要点 3}

---

## 标签

#{标签1} #{标签2} #{标签3}

文件命名规范

{VIDEO_ID}-抖音转录.md

故障排查

阶段	问题	解决方案
步骤 1	短链接解析失败	检查链接完整性，移除分享文本
步骤 1	JS 返回空值	等待 15-20 秒后重试，增加超时时间
步骤 1	下载返回 403	链接已过期，需重新从浏览器获取
步骤 1	DASH 无音频	使用 `ffmpeg -i video -i audio -c copy` 合并
步骤 2	ffmpeg 未安装	`winget install Gyan.FFmpeg`
步骤 2	Whisper 服务未运行	`docker start whisper-asr`
步骤 2	转录速度慢	CPU 上 10 分钟视频约需 15-20 分钟
步骤 2	转录质量差	使用更大模型（medium）

图片笔记处理

图片笔记（/note/）无需转录，直接作为图像快照处理。

name: Douyin Video Transcribe

version: 2.0.0

description: 从抖音视频中提取字幕和音频内容，支持自动转录与分析。

summary: 本技能用于从抖音视频页面抓取内容并生成文字转录文本。

操作流程

打开浏览器（使用 openclaw 配置文件，访问 IMAGE_NOTE_URL）
截取页面快照
从快照中提取内容
将结果保存至输出目录

异常情况处理

文章链接（/article/）：仅使用浏览器快照，不进行转录
抖音 AI 总结：从页面中提取作为补充信息
其他平台：使用 yt-dlp 处理 YouTube/Bilibili 内容
直播流：暂不支持

模块	功能
douyin-fetcher	仅负责视频获取
douyin-transcriber	仅负责音频转录
douyin-analyzer	仅负责内容分析
douyin-orchestrator	工作流协调

许可证

MIT-0 许可证 - 可自由使用、修改和分发。

@don068589

已收录 2 个 Skill