Knowledge Base Skill
支持图片附件与OCR的文字提取,按业务类型管理问答知识库。
下载 719
使用智谱GLM-V模型为图片、视频和文档生成描述内容。
openclaw skills install @jaredforreal/glmv-caption命令、参数、文件名以原文为准
使用智谱 GLM-V 多模态模型为图像、视频和文档生成描述。
| 类型 | 格式 | 最大大小 | 最大数量 | Base64 |
|---|---|---|---|---|
| 图像 | jpg, png, jpeg | 5MB / 6000×6000px | 50 | ✅ |
| 视频 | mp4, mkv, mov | 200MB | — | ❌ |
| 文档 | pdf, docx, txt, xlsx, pptx, jsonl | — | 50 | ❌ |
**⚠️ file_url 不能与 image_url 或 video_url 在同一请求中混用。**
⚠️ 视频和文档仅支持 URL —— 不支持本地路径或 Base64 编码(仅图像支持)。
| 资源 | 链接 |
|---|---|
| 获取 API 密钥 | [https://bigmodel.cn/usercenter/proj-mgmt/apikeys](https://bigmodel.cn/usercenter/proj-mgmt/apikeys) |
| API 文档 | [对话补全 / Chat Completions](https://docs.bigmodel.cn/api-reference/%E6%A8%A1%E5%9E%8B-api/%E5%AF%B9%E8%AF%9D%E8%A1%A5%E5%85%A8) |
该脚本通过 ZHIPU_API_KEY 环境变量读取密钥,并与其他智谱技能共享同一个密钥。
获取密钥: 访问 [智谱开放平台 API Keys](https://bigmodel.cn/usercenter/proj-mgmt/apikeys) 创建或复制您的 API 密钥。
配置方式(任选其一):
openclaw.json 中设置 skills.entries.glmv-caption.env:"glmv-caption": { "enabled": true, "env": { "ZHIPU_API_KEY": "你的密钥" } }~/.zshrc:export ZHIPU_API_KEY="你的密钥".env 文件:ZHIPU_API_KEY=你的密钥⛔ 强制限制 - 严禁违反 ⛔
python scripts/glmv_caption.py运行脚本后,必须将原始返回结果完整展示给用户,不得摘要、截断或仅提示“已生成”。用户需要原始模型输出以评估质量。
python scripts/glmv_caption.py --images "https://example.com/photo.jpg"
python scripts/glmv_caption.py --images /path/to/photo.pngpython scripts/glmv_caption.py --images img1.jpg img2.png "https://example.com/img3.jpg"python scripts/glmv_caption.py --videos "https://example.com/clip.mp4"python scripts/glmv_caption.py --files "https://example.com/report.pdf"
python scripts/glmv_caption.py --files "https://example.com/doc1.docx" "https://example.com/doc2.txt"python scripts/glmv_caption.py --images photo.jpg --prompt "详细描述建筑风格"python scripts/glmv_caption.py --images photo.jpg --output result.jsonpython scripts/glmv_caption.py --images photo.jpg --thinkingpython {baseDir}/scripts/glmv_caption.py (--images IMG [IMG...] | --videos VID [VID...] | --files FILE [FILE...]) [OPTIONS]| 参数 | 必填 | 说明 |
|---|---|---|
--images, -i | 二选一 | 图片路径或 URL(支持多个,base64 格式也可) |
--videos, -v | 二选一 | 视频路径或 URL(支持多个,格式为 mp4/mkv/mov) |
--files, -f | 二选一 | 文档路径或 URL(支持多个,格式为 pdf/docx/txt/xlsx/pptx/jsonl) |
--prompt, -p | 否 | 自定义提示词(默认:"请详细描述这张图片的内容" / "Please describe this image in detail") |
--model, -m | 否 | 模型名称(默认:glm-4.6v) |
--temperature, -t | 否 | 采样温度 0-1(默认:0.8) |
--top-p | 否 | 核采样值 0.01-1.0(默认:0.6) |
--max-tokens | 否 | 最大输出 token 数量(默认:1024,最大 32768) |
--thinking | 否 | 启用思考/推理模式 |
--output, -o | 否 | 将结果保存为 JSON 文件 |
--pretty | 否 | 格式化输出 JSON |
--stream | 否 | 启用流式输出 |
注意: --images、--videos 和 --files 三者在单次请求中互斥,受 API 限制。
{
"success": true,
"caption": "一张展示日落时分山脉景观的风景照片...",
"usage": {
"prompt_tokens": 128,
"completion_tokens": 256,
"total_tokens": 384
}
}关键字段说明:
success — 请求是否成功caption — 生成的描述文本usage — token 使用统计信息warning — 当内容被安全审查拦截时出现error — 请求失败时的错误详情API 密钥未配置:
ZHIPU_API_KEY not configured. Get your API key at: https://bigmodel.cn/usercenter/proj-mgmt/apikeys→ 向用户展示完整错误信息,并引导其完成配置
认证失败(401/403): API 密钥无效或已过期 → 请重新配置
速率限制(429): 配额已耗尽 → 告知用户等待后重试
文件未找到: 本地文件路径不存在 → 检查文件路径是否正确
内容被过滤: warning 字段存在 → 内容因安全审查被拦截
已收录 1 个 Skill