Finance OCR Pro

将扫描件或图像中的财务文档内容转换为可编辑格式,支持多格式输出。

已扫描
适合谁
财务分析师、研究人员
不适合谁
无API配置能力的普通用户、需完全离线处理且无法部署本地VLM服务者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @rizmoon/finance-ocr-pro

Skill 说明

命令、参数、文件名以原文为准

Finance OCR Pro

版本 1.0.7 更新:Word/DOCX 输出现在包含优化并扩展的 LaTeX 公式还原功能,用于识别出的公式。

请在用户明确提出 OCR 需求后运行此技能。

该技能特别适用于财务报告、年度报告、招股说明书、投资者演示文稿、监管文件、研究报告以及其他包含复杂结构、图表、图形、表格和混合布局元素的文档。

安全与隐私

在执行 OCR 前,请明确操作模式:

  • 本技能需要配置三个环境变量,缺一不可:

- API_KEY(敏感)——用于认证 VLM 接口的 API 密钥。

- BASE_URL —— OpenAI 兼容 VLM 接口的基地址。所有页面图像和 OCR 提示内容将发送至该地址。

- VLM_MODEL —— 支持图像输入的视觉语言模型标识符。仅支持文本的模型无法使用。

  • OCR 将渲染后的页面图像和结构化提示发送至 BASE_URL。这是主要的数据传输路径。处理敏感文档前,用户必须确认该接口是可信的。
  • 若用户希望离线或本地仅限 OCR,BASE_URL 必须指向本地 VLM 服务。除非提供方可信,否则不要对敏感文档使用外部接口。
  • scripts/ocr_setup.py 会检查依赖项并生成 .env 模板文件,但不会自动安装 Python 包。用户需自行审查并执行依赖安装。
  • HTML 报告生成使用 scripts/vendor/ 目录中的内嵌 Mermaid 和 MathJax 文件,运行时不会从 CDN 下载前端资源。
  • 本地子进程调用仅限启动本地 OCR 工作进程以及调用文档转换工具(如 LibreOffice 或 osascript)。命令通过显式参数列表执行,而非 shell 字符串。
  • 切勿提交已填充的 .env 文件。请使用 .env.example 作为模板,真实凭证应保留在本地。

运行前提示

当用户请求 OCR 或信息提取后,请给出简要说明,包括:

  • BASE_URL 是本地还是远程
  • 将使用的 VLM_MODEL
  • 执行模式
  • 结果输出位置
  • 本技能支持多线程 OCR,若用户的 API 接口、速率限制和套餐支持并发请求,可提高线程数以加快处理速度
  • 页面图像和提示内容将被传输至配置的接口

除非用户要求更改默认设置,否则自动继续。

默认提示内容

  • 运行模式:后台任务(默认)
  • 模型:VLM_MODEL
  • 线程数:1

若用户的 API 接口或套餐支持安全的并发 OCR 请求,可告知用户可选择更高线程数。

  • 结果路径:

- 后台模式:~/.semantic-ocr/jobs/<job_id>/results/

- 同步模式:ocr_output/OCR_<filename>/results/

设置

如存在本地虚拟环境,请优先使用:

  • macOS/Linux:.venv/bin/python
  • Windows:.venv/Scripts/python.exe
  • 备用方案:macOS/Linux 使用 python3,Windows 使用 python

在运行任何命令前,确定解释器并全程复用:

  • macOS/Linux:PYTHON="${PYTHON:-$( [ -x .venv/bin/python ] && printf .venv/bin/python || printf python3 )}"
  • Windows:若存在 .venv\Scripts\python.exe,则使用它;否则使用 python

运行以下命令:

$PYTHON scripts/ocr_setup.py --check

若设置不完整,运行:

$PYTHON scripts/ocr_setup.py

推荐执行方式

默认情况下,启动后台工作进程:

$PYTHON scripts/ocrctl.py --json start /path/to/document.pdf

若提供商支持并发且用户希望更快完成 OCR,可建议更高线程数,例如:

$PYTHON scripts/ocrctl.py --json start -t 4 /path/to/document.pdf

随后检查进度与输出:

$PYTHON scripts/ocrctl.py --json status <job_id>
$PYTHON scripts/ocrctl.py --json artifacts <job_id>
$PYTHON scripts/ocrctl.py --json tail <job_id>

仅当用户明确要求即时执行时,才使用同步模式:

$PYTHON scripts/ocr_main.py /path/to/document.pdf

注意事项

  • 输入格式:PDF、常见办公文档、Apple 办公格式及图片。
  • 输出格式:合并后的 Markdown、HTML 审查报告、改进了原生 Word 公式输出的 DOCX(针对识别出的 LaTeX 公式)、Excel。
  • OCR 运行前必须配置 API_KEYBASE_URLVLM_MODEL
  • 默认页面渲染分辨率为 200 DPI。
  • 本技能支持多线程 OCR。除非用户的 API 接口、速率限制和套餐支持并发请求,否则保持默认线程数为 1
  • 敏感文档页面在 OCR 过程中会被传输至配置的接口,除非该接口为本地服务。
  • 最适合处理财务文档及其他视觉密集型材料,如含表格、图表、图形和复杂版式结构的文档。
  • 办公文档转换可能需要 LibreOffice。
  • VLM 模型进行 OCR 提取可能耗时较长,请定期检查状态。
R
@rizmoon

已收录 1 个 Skill

相关推荐