Finance OCR Pro

将扫描件或图像中的财务文档内容转换为可编辑格式，支持多格式输出。

已扫描

项目

内容

适合谁

财务分析师、研究人员

不适合谁

无API配置能力的普通用户、需完全离线处理且无法部署本地VLM服务者

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @rizmoon/finance-ocr-pro

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

Finance OCR Pro

版本 1.0.7 更新：Word/DOCX 输出现在包含优化并扩展的 LaTeX 公式还原功能，用于识别出的公式。

请在用户明确提出 OCR 需求后运行此技能。

该技能特别适用于财务报告、年度报告、招股说明书、投资者演示文稿、监管文件、研究报告以及其他包含复杂结构、图表、图形、表格和混合布局元素的文档。

安全与隐私

在执行 OCR 前，请明确操作模式：

本技能需要配置三个环境变量，缺一不可：

- API_KEY（敏感）——用于认证 VLM 接口的 API 密钥。

- BASE_URL —— OpenAI 兼容 VLM 接口的基地址。所有页面图像和 OCR 提示内容将发送至该地址。

- VLM_MODEL —— 支持图像输入的视觉语言模型标识符。仅支持文本的模型无法使用。

OCR 将渲染后的页面图像和结构化提示发送至 BASE_URL。这是主要的数据传输路径。处理敏感文档前，用户必须确认该接口是可信的。
若用户希望离线或本地仅限 OCR，BASE_URL 必须指向本地 VLM 服务。除非提供方可信，否则不要对敏感文档使用外部接口。
scripts/ocr_setup.py 会检查依赖项并生成 .env 模板文件，但不会自动安装 Python 包。用户需自行审查并执行依赖安装。
HTML 报告生成使用 scripts/vendor/ 目录中的内嵌 Mermaid 和 MathJax 文件，运行时不会从 CDN 下载前端资源。
本地子进程调用仅限启动本地 OCR 工作进程以及调用文档转换工具（如 LibreOffice 或 osascript）。命令通过显式参数列表执行，而非 shell 字符串。
切勿提交已填充的 .env 文件。请使用 .env.example 作为模板，真实凭证应保留在本地。

运行前提示

当用户请求 OCR 或信息提取后，请给出简要说明，包括：

BASE_URL 是本地还是远程
将使用的 VLM_MODEL
执行模式
结果输出位置
本技能支持多线程 OCR，若用户的 API 接口、速率限制和套餐支持并发请求，可提高线程数以加快处理速度
页面图像和提示内容将被传输至配置的接口

除非用户要求更改默认设置，否则自动继续。

默认提示内容

运行模式：后台任务（默认）
模型：VLM_MODEL
线程数：1

若用户的 API 接口或套餐支持安全的并发 OCR 请求，可告知用户可选择更高线程数。

结果路径：

- 后台模式：~/.semantic-ocr/jobs/<job_id>/results/

- 同步模式：ocr_output/OCR_<filename>/results/

设置

如存在本地虚拟环境，请优先使用：

macOS/Linux：.venv/bin/python
Windows：.venv/Scripts/python.exe
备用方案：macOS/Linux 使用 python3，Windows 使用 python

在运行任何命令前，确定解释器并全程复用：

macOS/Linux：PYTHON="${PYTHON:-$( [ -x .venv/bin/python ] && printf .venv/bin/python || printf python3 )}"
Windows：若存在 .venv\Scripts\python.exe，则使用它；否则使用 python

运行以下命令：

$PYTHON scripts/ocr_setup.py --check

若设置不完整，运行：

$PYTHON scripts/ocr_setup.py

注意事项

输入格式：PDF、常见办公文档、Apple 办公格式及图片。
输出格式：合并后的 Markdown、HTML 审查报告、改进了原生 Word 公式输出的 DOCX（针对识别出的 LaTeX 公式）、Excel。
OCR 运行前必须配置 API_KEY、BASE_URL 和 VLM_MODEL。
默认页面渲染分辨率为 200 DPI。
本技能支持多线程 OCR。除非用户的 API 接口、速率限制和套餐支持并发请求，否则保持默认线程数为 1。
敏感文档页面在 OCR 过程中会被传输至配置的接口，除非该接口为本地服务。
最适合处理财务文档及其他视觉密集型材料，如含表格、图表、图形和复杂版式结构的文档。
办公文档转换可能需要 LibreOffice。
VLM 模型进行 OCR 提取可能耗时较长，请定期检查状态。

@rizmoon

已收录 1 个 Skill

Finance OCR Pro

安装与下载

Skill 说明

Finance OCR Pro

安全与隐私

运行前提示

默认提示内容

设置

推荐执行方式

注意事项

相关推荐

News Summary Local

Document Summary

Research