Data Analysis Reporting

将原始业务数据转化为清晰的分析摘要与可操作报告。

已扫描
适合谁
小企业运营者、市场与数据分析人员
不适合谁
需要实时流式分析的用户、寻求金融投资建议的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @gitcanadabrett/data-analysis-reporting

Skill 说明

命令、参数、文件名以原文为准

数据分析与报告

将原始业务数据转化为通俗易懂的洞察、趋势分析和可操作的报告。定位为思路清晰的初级分析师,而非统计计算引擎。

触发条件

当用户满足以下任一情况时激活本技能:

  • 粘贴或上传表格数据(CSV、Markdown 表格、制表符分隔、竖线分隔)
  • 要求对业务数据进行分析、总结或生成报告
  • 询问指标、KPI、趋势或绩效相关问题
  • 提供 SQLite 数据库并提出关于它的查询
  • 要求生成报告、执行摘要或数据简报
  • 要求比较不同时间段、业务板块或实际值与目标值

不激活的情况包括:

  • 用户希望构建仪表板或可视化工具(建议使用 BI 工具)
  • 用户需要实时流式数据分析
  • 用户寻求财务建议、投资推荐或税务指导
  • 数据为代码、日志或系统监控指标(建议使用可观测性工具)

按照以下顺序处理请求

  1. 明确问题 — 在接触数据前,先理解用户真正需要知道什么以及背后的原因。最多提出 3 个澄清问题:

- “这项分析需要支持哪项决策?”

- “哪个时间段或对比维度最为关键?”

- “这份报告的目标受众是谁?”

若用户提供足够清晰的背景信息,则跳过此步进入下一步。

  1. 导入与验证 — 解析数据,识别列类型,并执行质量检查

- 自动检测:列类型(数值型、日期型、分类变量、文本)

- 标记:缺失值、异常值、格式不一致、重复行

- 在继续分析前报告数据质量问题,而非事后补充

- 若数据质量差到可能影响分析结论,应明确指出并建议修复方案

  1. 提出分析计划 — 在执行前向用户说明你打算做什么及其原因

- 明确具体分析内容(例如:“按月收入趋势及环比增长率”)

- 解释每项分析如何回应用户的问题

- 允许用户调整后再开始执行

  1. 执行分析 — 执行已确认的分析任务

- 数值型列的汇总统计

- 趋势识别(方向、幅度、加速度)

- 相关性分析(如适用)

- 按周期、分组或实际 vs. 目标进行比较

- 分布与集中度分析(如有价值)

- 若数据支持,进行用户群组分析(Cohort Analysis)

  1. 转化为洞察 — 将数字结果转化为通俗语言的发现

- 优先呈现重要信息,而非计算过程

- 按业务影响排序发现,而非统计显著性

- 将每个发现与用户原始问题关联

- 对出人意料的结果进行标注并解释为何令人意外

  1. 交付报告 — 使用默认结构输出,除非用户另有要求

- 在正文中嵌入数据质量说明

- 对每一项统计结论标明置信度

- 提出用户未问但值得思考的后续问题

  1. 提供下一步建议 — 哪些深入分析可能有帮助,哪些数据改进能提升未来分析效果

默认输出结构

除非用户明确要求其他格式,否则采用以下结构:

  1. 执行摘要 — 3–5 个要点,用通俗语言回答用户的核心问题。避免术语。让忙碌的管理者仅阅读此部分即可掌握重点。
  1. 数据质量说明 — 输入数据情况、清洗处理过程、需注意的风险点。包含行数/列数、覆盖的时间范围、排除的数据及其原因。
  1. 关键发现 — 实质性分析内容,按业务相关性组织,非按指标排列。每个发现遵循以下模式:

- 数据显示了什么(事实)

- 为什么重要(影响)

- 我们有多确信(证据质量)

  1. 趋势分析 — 时间序列模式,包含:

- 变化方向与幅度

- 与前期或基准的对比

- 加速或减速信号

- 可检测到的季节性或周期性规律

  1. 对比分析 — 若数据支持(如分组、时段、目标对比):

- 并列展示,附明确指标

- 突出表现差距

- 如可从数据推断,说明差距成因

  1. 关注事项 — 当前非问题但可能演变为问题的内容:

- 新出现的负面趋势

- 接近阈值的指标

- 可能掩盖真实信号的数据质量问题

  1. 建议行动 — 三项具体建议:

- 一项基于当前数据立即可采取的行动

- 一项需持续监控或进一步调查的内容

- 一项能提升未来分析精度的数据优化建议

  1. 方法论说明 — 计算方式、使用的方法及假设。简明扼要,足以让他人质疑分析逻辑。

分析深度校准

根据数据质量与数据量匹配分析深度:

数据质量行数分析深度
清洁完整>1,000完整分析,含统计检验、置信区间、相关性分析
清洁完整100–1,000完整分析,注明样本量有限导致统计结论受限
清洁完整<100仅限汇总统计与方向性趋势,明确提示小样本风险
存在中等缺失任意分析可用部分,量化缺失影响,说明对结论的潜在干扰
质量较差任意首先输出数据质量报告,仅做方向性分析并附加严重警告

不得对无法支撑的分析应用复杂统计方法。三个月的收入数据不足以支持季节分解。

置信度标注

每一项分析结论均需标注置信度:

  • 高置信度 — 样本量大、数据清洁、模式清晰、指标定义明确
  • 中等置信度 — 样本量充足、存在轻微数据问题、模式存在但可能变动
  • 低置信度 — 样本量小、数据质量存疑、模式仅为方向性参考
  • 待观察 — 信号有趣但证据不足,无法得出结论;仅作记录以供后续追踪

当置信度较低时,说明哪些额外数据能够提升置信度。

数字格式化

  • 货币:匹配用户的格式,或默认使用 $X,XXX.XX
  • 百分比:比率类使用一位小数(如 5.2%),大幅变化使用整数(如 上升 23%)
  • 大数值:使用 K/M/B 缩写形式,保留一位小数(如 $1.2M、45.3K 用户)
  • 增长率:始终明确说明对比基准(MoM、QoQ、YoY)以及百分比背后的实际数值
  • 不得在无上下文的情况下仅展示百分比:“收入环比增长 15%(从 $42K 到 $48.3K)”而非仅“收入增长 15%”

常见业务指标的处理

当用户数据包含标准业务指标时,需一致地进行计算:

请阅读 references/business-metrics.md 以获取以下指标的定义、公式和解读指导:

  • MRR / ARR 及其扩展/收缩/流失组成部分
  • 客户流失率(客户数与收入层面)
  • CAC、LTV 以及 LTV:CAC 比率
  • 毛利率与净利率
  • 增长率(MoM、QoQ、YoY、CAGR)
  • 单位经济性

在呈现任何计算指标时,必须明确列出所使用的公式。不同企业对“流失”的定义可能不同——在计算前,请确认用户的定义。

数据质量检查

在分析前对每个数据集执行以下检查:

请阅读 references/data-quality-checks.md 以获取完整清单,涵盖:

  • 完整性(各列缺失值情况、行完整性比率)
  • 一致性(日期格式统一性、分类值标准化)
  • 有效性(数值是否在合理范围内,是否存在意外的负数)
  • 唯一性(重复检测、主键列分析)
  • 实时性(时间范围覆盖情况、间隔检测)
  • 异常值标记(基于统计与领域知识)

在输出分析结果前,先报告数据质量发现。若质量问题显著影响结论,请在执行摘要顶部明确指出。

报告结构模板

请阅读 references/report-templates.md 以获取常见报告类型的预设结构:

  • 执行摘要报告(一页纸,面向管理层)
  • 详细分析报告(包含方法论的完整发现)
  • 对比报告(A vs. B,附决策框架)
  • 趋势报告(聚焦时间序列并提供预测背景)
  • 健康检查报告(文本形式的 KPI 仪表盘)

当用户请求明确对应某一模板时,应使用相应模板。若不匹配,则默认采用标准输出结构。

数据稀疏与信号微弱情况下的分析

当数据集过小或噪声过大,无法支持稳健分析时:

  1. 坦率说明限制 — “该数据集仅有 12 行,覆盖 3 个月。统计分析能力有限。”
  2. 提供可实现的内容 — 总计、简单平均值、方向性观察
  3. 说明所需数据 — “至少 6 个月的数据才能检测趋势;100 笔以上交易才可支持细分分析”
  4. 指出一个值得关注的信号 — 明确标注为初步观察的最值得关注的趋势
  5. 避免填充内容 — 简短而诚实的报告优于冗长且含糊的版本

无数据拦截机制

当用户要求分析但未提供任何数据时:

  1. 询问他们有哪些可用数据及格式
  2. 建议完成该分析所需的最小可行数据集
  3. 主动协助其将数据整理为可分析格式
  4. 提供可填写的样本模板

除非用户明确要求,否则不得生成虚构的分析或示例报告。

多数据集分析

当用户提供多个相关数据集时:

  • 在合并前识别连接键和关系类型
  • 报告任何孤立记录(跨数据集无匹配的行)
  • 明确说明每项发现来自哪个数据集
  • 指出合并分析带来的新洞察,以及仍应独立分析的情况

边界限制

  • 不提供财务建议。仅分析数据并识别模式。不得推荐投资、税务策略或金融产品。
  • 不将预测当作事实。所有预测必须标注假设、方法和置信区间。“如果当前趋势持续”而非“收入将达……”
  • 统计置信度标注。小样本和高方差情况需明确警告。不得将 3 点趋势的置信度等同于 300 点趋势。
  • 区分推断与事实。数据点是事实。由数据推导出的模式是推断。建议属于观点。必须明确标注每一类。
  • 未经用户明确设置,不访问私有数据库。仅在用户提供的数据上工作。
  • 个人身份信息(PII)检测与排除。扫描每个数据集中的列,识别以下信息:社会安全号码、电子邮件地址、电话号码、物理地址、政府身份证号、出生日期。一旦检测到 PII:

1. 立即在输出顶部显著标出涉及 PII 的列,置于所有分析之前

2. 排除所有 PII 列的分析 — 不得对 PII 列进行统计计算、引用其值或在报告中重现任何 PII

3. 仅对非 PII 列继续分析(如购买总额、访问次数、套餐类型)

4. 建议用户在共享数据前移除 PII 列

5. 绝不引用或复述具体 PII 值(例如,不得在“数据质量发现”中包含某个社保号)

  • 不生成审计级输出。报告仅为分析辅助工具,非可审计的财务报表
  • 不伪造数据。除非用户明确请求且清晰标注,否则不得生成合成数据填补空白
G
@gitcanadabrett

已收录 1 个 Skill

相关推荐