GLM-V-Caption

使用智谱GLM-V模型为图片、视频和文档生成描述内容。

已扫描

项目

内容

适合谁

需要快速理解图像内容的用户、从事内容创作与媒体分析的专业人员

不适合谁

无法访问智谱API的用户、对隐私敏感且不愿使用外部API的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @jaredforreal/glmv-caption

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

GLM-V 图像描述技能

使用智谱 GLM-V 多模态模型为图像、视频和文档生成描述。

适用场景

描述、生成标题、总结或解释图像/视频/文档内容
用户提及“描述这张图片”、“生成标题”、“总结这段视频”、“图片描述”、“视频摘要”、“文档解读”、“看图说话”
从媒体文件中提取视觉或文本信息
比较多张图片
用户提供一张图片/视频/文件并询问其中内容

支持的输入类型

类型	格式	最大大小	最大数量	Base64
图像	jpg, png, jpeg	5MB / 6000×6000px	50	✅
视频	mp4, mkv, mov	200MB	—	❌
文档	pdf, docx, txt, xlsx, pptx, jsonl	—	50	❌

**⚠️ file_url 不能与 image_url 或 video_url 在同一请求中混用。**

⚠️ 视频和文档仅支持 URL —— 不支持本地路径或 Base64 编码（仅图像支持）。

资源链接

资源	链接
获取 API 密钥	[https://bigmodel.cn/usercenter/proj-mgmt/apikeys](https://bigmodel.cn/usercenter/proj-mgmt/apikeys)
API 文档	[对话补全 / Chat Completions](https://docs.bigmodel.cn/api-reference/%E6%A8%A1%E5%9E%8B-api/%E5%AF%B9%E8%AF%9D%E8%A1%A5%E5%85%A8)

前置条件

API Key 配置（必需）

该脚本通过 ZHIPU_API_KEY 环境变量读取密钥，并与其他智谱技能共享同一个密钥。

获取密钥： 访问 [智谱开放平台 API Keys](https://bigmodel.cn/usercenter/proj-mgmt/apikeys) 创建或复制您的 API 密钥。

配置方式（任选其一）：

OpenClaw 配置（推荐）： 在 openclaw.json 中设置 skills.entries.glmv-caption.env：

"glmv-caption": { "enabled": true, "env": { "ZHIPU_API_KEY": "你的密钥" } }

Shell 环境变量： 添加至 ~/.zshrc：

export ZHIPU_API_KEY="你的密钥"

.env 文件： 在本技能目录下创建 .env 文件：

ZHIPU_API_KEY=你的密钥

⛔ 强制限制 - 严禁违反 ⛔

仅使用 GLM-V API —— 执行脚本 python scripts/glmv_caption.py
绝不自行描述媒体内容 —— 不得使用内置视觉能力或其他方法尝试描述
绝不提供替代方案 —— 不得建议“我可以试试描述一下”等类似说法
若 API 失败 —— 显示错误信息并立即停止
无备用方法 —— 不得尝试其他任何方式生成描述

📋 输出显示规则（强制要求）

运行脚本后，必须将原始返回结果完整展示给用户，不得摘要、截断或仅提示“已生成”。用户需要原始模型输出以评估质量。

图像描述：显示完整的描述文本
多张图像：逐个展示每张图像的结果
视频/文档：显示完整的理解结果
若包含 token 使用量，可选择性显示

使用方法

描述单张图像

python scripts/glmv_caption.py --images "https://example.com/photo.jpg"
python scripts/glmv_caption.py --images /path/to/photo.png

描述多张图像

python scripts/glmv_caption.py --images img1.jpg img2.png "https://example.com/img3.jpg"

描述视频

python scripts/glmv_caption.py --videos "https://example.com/clip.mp4"

描述文档

python scripts/glmv_caption.py --files "https://example.com/report.pdf"
python scripts/glmv_caption.py --files "https://example.com/doc1.docx" "https://example.com/doc2.txt"

自定义提示词

python scripts/glmv_caption.py --images photo.jpg --prompt "详细描述建筑风格"

保存结果

python scripts/glmv_caption.py --images photo.jpg --output result.json

思考模式

python scripts/glmv_caption.py --images photo.jpg --thinking

CLI 参考

python {baseDir}/scripts/glmv_caption.py (--images IMG [IMG...] | --videos VID [VID...] | --files FILE [FILE...]) [OPTIONS]

参数	必填	说明
`--images`, `-i`	二选一	图片路径或 URL（支持多个，base64 格式也可）
`--videos`, `-v`	二选一	视频路径或 URL（支持多个，格式为 mp4/mkv/mov）
`--files`, `-f`	二选一	文档路径或 URL（支持多个，格式为 pdf/docx/txt/xlsx/pptx/jsonl）
`--prompt`, `-p`	否	自定义提示词（默认："请详细描述这张图片的内容" / "Please describe this image in detail"）
`--model`, `-m`	否	模型名称（默认：`glm-4.6v`）
`--temperature`, `-t`	否	采样温度 0-1（默认：0.8）
`--top-p`	否	核采样值 0.01-1.0（默认：0.6）
`--max-tokens`	否	最大输出 token 数量（默认：1024，最大 32768）
`--thinking`	否	启用思考/推理模式
`--output`, `-o`	否	将结果保存为 JSON 文件
`--pretty`	否	格式化输出 JSON
`--stream`	否	启用流式输出

注意： --images、--videos 和 --files 三者在单次请求中互斥，受 API 限制。

响应格式

{
  "success": true,
  "caption": "一张展示日落时分山脉景观的风景照片...",
  "usage": {
    "prompt_tokens": 128,
    "completion_tokens": 256,
    "total_tokens": 384
  }
}

关键字段说明：

success — 请求是否成功
caption — 生成的描述文本
usage — token 使用统计信息
warning — 当内容被安全审查拦截时出现
error — 请求失败时的错误详情

错误处理

API 密钥未配置：

ZHIPU_API_KEY not configured. Get your API key at: https://bigmodel.cn/usercenter/proj-mgmt/apikeys

→ 向用户展示完整错误信息，并引导其完成配置

认证失败（401/403）： API 密钥无效或已过期 → 请重新配置

速率限制（429）： 配额已耗尽 → 告知用户等待后重试

文件未找到： 本地文件路径不存在 → 检查文件路径是否正确

内容被过滤： warning 字段存在 → 内容因安全审查被拦截

@jaredforreal

已收录 1 个 Skill