GLM-V-Caption

使用智谱GLM-V模型为图片、视频和文档生成描述内容。

已扫描
适合谁
需要快速理解图像内容的用户、从事内容创作与媒体分析的专业人员
不适合谁
无法访问智谱API的用户、对隐私敏感且不愿使用外部API的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @jaredforreal/glmv-caption

Skill 说明

命令、参数、文件名以原文为准

GLM-V 图像描述技能

使用智谱 GLM-V 多模态模型为图像、视频和文档生成描述。

适用场景

  • 描述、生成标题、总结或解释图像/视频/文档内容
  • 用户提及“描述这张图片”、“生成标题”、“总结这段视频”、“图片描述”、“视频摘要”、“文档解读”、“看图说话”
  • 从媒体文件中提取视觉或文本信息
  • 比较多张图片
  • 用户提供一张图片/视频/文件并询问其中内容

支持的输入类型

类型格式最大大小最大数量Base64
图像jpg, png, jpeg5MB / 6000×6000px50
视频mp4, mkv, mov200MB
文档pdf, docx, txt, xlsx, pptx, jsonl50

**⚠️ file_url 不能与 image_urlvideo_url 在同一请求中混用。**

⚠️ 视频和文档仅支持 URL —— 不支持本地路径或 Base64 编码(仅图像支持)。

资源链接

资源链接
获取 API 密钥[https://bigmodel.cn/usercenter/proj-mgmt/apikeys](https://bigmodel.cn/usercenter/proj-mgmt/apikeys)
API 文档[对话补全 / Chat Completions](https://docs.bigmodel.cn/api-reference/%E6%A8%A1%E5%9E%8B-api/%E5%AF%B9%E8%AF%9D%E8%A1%A5%E5%85%A8)

前置条件

API Key 配置(必需)

该脚本通过 ZHIPU_API_KEY 环境变量读取密钥,并与其他智谱技能共享同一个密钥。

获取密钥: 访问 [智谱开放平台 API Keys](https://bigmodel.cn/usercenter/proj-mgmt/apikeys) 创建或复制您的 API 密钥。

配置方式(任选其一):

  1. OpenClaw 配置(推荐):openclaw.json 中设置 skills.entries.glmv-caption.env
"glmv-caption": { "enabled": true, "env": { "ZHIPU_API_KEY": "你的密钥" } }
  1. Shell 环境变量: 添加至 ~/.zshrc
export ZHIPU_API_KEY="你的密钥"
  1. .env 文件: 在本技能目录下创建 .env 文件:
ZHIPU_API_KEY=你的密钥

⛔ 强制限制 - 严禁违反 ⛔

  1. 仅使用 GLM-V API —— 执行脚本 python scripts/glmv_caption.py
  2. 绝不自行描述媒体内容 —— 不得使用内置视觉能力或其他方法尝试描述
  3. 绝不提供替代方案 —— 不得建议“我可以试试描述一下”等类似说法
  4. 若 API 失败 —— 显示错误信息并立即停止
  5. 无备用方法 —— 不得尝试其他任何方式生成描述

📋 输出显示规则(强制要求)

运行脚本后,必须将原始返回结果完整展示给用户,不得摘要、截断或仅提示“已生成”。用户需要原始模型输出以评估质量。

  • 图像描述:显示完整的描述文本
  • 多张图像:逐个展示每张图像的结果
  • 视频/文档:显示完整的理解结果
  • 若包含 token 使用量,可选择性显示

使用方法

描述单张图像

python scripts/glmv_caption.py --images "https://example.com/photo.jpg"
python scripts/glmv_caption.py --images /path/to/photo.png

描述多张图像

python scripts/glmv_caption.py --images img1.jpg img2.png "https://example.com/img3.jpg"

描述视频

python scripts/glmv_caption.py --videos "https://example.com/clip.mp4"

描述文档

python scripts/glmv_caption.py --files "https://example.com/report.pdf"
python scripts/glmv_caption.py --files "https://example.com/doc1.docx" "https://example.com/doc2.txt"

自定义提示词

python scripts/glmv_caption.py --images photo.jpg --prompt "详细描述建筑风格"

保存结果

python scripts/glmv_caption.py --images photo.jpg --output result.json

思考模式

python scripts/glmv_caption.py --images photo.jpg --thinking

CLI 参考

python {baseDir}/scripts/glmv_caption.py (--images IMG [IMG...] | --videos VID [VID...] | --files FILE [FILE...]) [OPTIONS]
参数必填说明
--images, -i二选一图片路径或 URL(支持多个,base64 格式也可)
--videos, -v二选一视频路径或 URL(支持多个,格式为 mp4/mkv/mov)
--files, -f二选一文档路径或 URL(支持多个,格式为 pdf/docx/txt/xlsx/pptx/jsonl)
--prompt, -p自定义提示词(默认:"请详细描述这张图片的内容" / "Please describe this image in detail")
--model, -m模型名称(默认:glm-4.6v
--temperature, -t采样温度 0-1(默认:0.8)
--top-p核采样值 0.01-1.0(默认:0.6)
--max-tokens最大输出 token 数量(默认:1024,最大 32768)
--thinking启用思考/推理模式
--output, -o将结果保存为 JSON 文件
--pretty格式化输出 JSON
--stream启用流式输出

注意: --images--videos--files 三者在单次请求中互斥,受 API 限制。

响应格式

{
  "success": true,
  "caption": "一张展示日落时分山脉景观的风景照片...",
  "usage": {
    "prompt_tokens": 128,
    "completion_tokens": 256,
    "total_tokens": 384
  }
}

关键字段说明:

  • success — 请求是否成功
  • caption — 生成的描述文本
  • usage — token 使用统计信息
  • warning — 当内容被安全审查拦截时出现
  • error — 请求失败时的错误详情

错误处理

API 密钥未配置:

ZHIPU_API_KEY not configured. Get your API key at: https://bigmodel.cn/usercenter/proj-mgmt/apikeys

→ 向用户展示完整错误信息,并引导其完成配置

认证失败(401/403): API 密钥无效或已过期 → 请重新配置

速率限制(429): 配额已耗尽 → 告知用户等待后重试

文件未找到: 本地文件路径不存在 → 检查文件路径是否正确

内容被过滤: warning 字段存在 → 内容因安全审查被拦截

J
@jaredforreal

已收录 1 个 Skill

相关推荐