Multi-Modal Content Creator

通过WhatsApp接收文本或语音，转写后使用DALL-E 3生成图像并自动回复的工作流。

已扫描

项目

内容

适合谁

需要自动化WhatsApp回复的营销人员、希望快速生成图像的客服团队、对多模态AI工作流感兴趣的开发者

不适合谁

没有WhatsApp账号或OpenAI API密钥的用户、不需要图像生成或语音转写功能的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @terrycarter1985/multimodal-content-creator

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

多模态内容创作者

基于 WhatsApp 的内容创建流程，让客户发送文本或语音消息，并收到 AI 生成的图像作为回复。

工作原理

接收 WhatsApp 消息（文本或语音笔记）
使用 OpenAI Whisper 转写语音笔记
使用 DALL-E 3 生成提示词对应的图像
回复生成的图像给客户

前提条件

将 OpenAI API 密钥设置为 OPENAI_API_KEY 环境变量
WhatsApp CLI 身份验证（python wacli.py login <token>）

使用方法

# 处理所有未读的 WhatsApp 消息
python scripts/workflow.py process-all

# 生成单个图像
python scripts/generate_images.py "a cat riding a skateboard"

# 根据提示词文件批量生成
python scripts/generate_images.py prompts.txt

# 转写音频文件
python scripts/transcribe.py recording.mp3

文件

scripts/workflow.py — 主编排脚本
scripts/generate_images.py — DALL-E 3 图像生成
scripts/transcribe.py — Whisper 音频转写（对大文件进行分块处理）
scripts/wacli.py — WhatsApp CLI 客户端

@terrycarter1985

已收录 2 个 Skill

Multi-Modal Content Creator

安装与下载

Skill 说明

多模态内容创作者

工作原理

前提条件

使用方法

文件

相关推荐

navigation-menu-generator

Jd Writing

B站 (bilibili) 热门视频监控