Multi-Modal Content Creator

通过WhatsApp接收文本或语音,转写后使用DALL-E 3生成图像并自动回复的工作流。

已扫描
适合谁
需要自动化WhatsApp回复的营销人员、希望快速生成图像的客服团队、对多模态AI工作流感兴趣的开发者
不适合谁
没有WhatsApp账号或OpenAI API密钥的用户、不需要图像生成或语音转写功能的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @terrycarter1985/multimodal-content-creator

Skill 说明

命令、参数、文件名以原文为准

多模态内容创作者

基于 WhatsApp 的内容创建流程,让客户发送文本或语音消息,并收到 AI 生成的图像作为回复。

工作原理

  1. 接收 WhatsApp 消息(文本或语音笔记)
  2. 使用 OpenAI Whisper 转写语音笔记
  3. 使用 DALL-E 3 生成提示词对应的图像
  4. 回复生成的图像给客户

前提条件

  • 将 OpenAI API 密钥设置为 OPENAI_API_KEY 环境变量
  • WhatsApp CLI 身份验证(python wacli.py login <token>

使用方法

# 处理所有未读的 WhatsApp 消息
python scripts/workflow.py process-all

# 生成单个图像
python scripts/generate_images.py "a cat riding a skateboard"

# 根据提示词文件批量生成
python scripts/generate_images.py prompts.txt

# 转写音频文件
python scripts/transcribe.py recording.mp3

文件

  • scripts/workflow.py — 主编排脚本
  • scripts/generate_images.py — DALL-E 3 图像生成
  • scripts/transcribe.py — Whisper 音频转写(对大文件进行分块处理)
  • scripts/wacli.py — WhatsApp CLI 客户端
T
@terrycarter1985

已收录 2 个 Skill

相关推荐