Fmt Tool
用于重排段落、去除多余空格,清理文本文件的简单工具。
下载 409
利用 Azure 内容理解分析器提取 PDF、图片等文档的结构化内容,输出 Markdown 和 JSON。
openclaw skills install @zwcih/azure-content-layout命令、参数、文件名以原文为准
使用 Azure 的预构建布局分析器从文档中提取结构化内容。输出包含 Markdown 和结构化 JSON,支持文本、表格、图表及文档层级结构。
设置环境变量:
export AZURE_CU_ENDPOINT="https://YOUR_RESOURCE.services.ai.azure.com/"
export AZURE_CU_API_KEY="YOUR_KEY_HERE"可选:设置 API 版本(默认为 2025-05-01-preview):
export AZURE_CU_API_VERSION="2025-11-01"node scripts/analyze.mjs --url "https://example.com/document.pdf"cat invoice.pdf | node scripts/analyze.mjs --stdin --markdown output.md --output result.jsonnode scripts/analyze.mjs --url "https://example.com/report.pdf" \
--markdown report.md \
--output report.json当脚本不可用时,可使用 curl:
# 提交分析请求(预览版 API)
curl -s -X POST "$AZURE_CU_ENDPOINT/contentunderstanding/analyzers/prebuilt-layout:analyze?api-version=2025-05-01-preview" \
-H "Ocp-Apim-Subscription-Key: $AZURE_CU_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/doc.pdf"}'
# 响应包含 Operation-Location 头部 —— 需轮询该 URL 获取结果对于正式版 API(2025-11-01),请求体格式发生变化:
{"inputs": [{"url": "https://example.com/doc.pdf"}]}分析器生成 GitHub 风格的 Markdown,保留以下内容:
<table> 块形式输出)完整结果包含各元素的详细数据:
pages — 每页的尺寸、文字和行数统计paragraphs — 文本块及其边界区域和语义角色tables — 包含行列跨距的单元格信息figures — 检测到的图像/图表及其边界区域sections — 文档的分层结构PDF、JPEG、PNG、BMP、TIFF、HEIF、DOCX、XLSX、PPTX、HTML
Operation-Location 获取结果Content-Type: application/octet-stream 并发送二进制数据详见 [references/api.md](references/api.md) 获取完整的请求与响应说明。
已收录 1 个 Skill