Post-Mortem & Incident Review

通过结构化、无责的复盘流程,进行根因分析、任务跟踪与预防措施制定,减少生产事故重复发生。

已扫描
适合谁
技术团队负责人、运维与工程经理
不适合谁
非技术背景人员、无需处理系统故障的普通用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @1kalin/afrexai-post-mortem

Skill 说明

命令、参数、文件名以原文为准

事后复盘与事件审查框架

执行结构化的事后复盘,真正防止重复故障。采用无责分析、根因识别和行动项追踪。

适用场景

  • 任何生产环境事件、中断或服务降级后
  • 项目延期、发布失败或客户流失后
  • 任何造成超过 $5,000 损失或团队耗时超过 4 小时的事件后
  • 每季度对重复性事件模式进行回顾

事后复盘模板

1. 事件摘要(24 小时内完成)

事件编号:[自动生成]
发生时间:[开始] → [结束](持续时间:X 小时)
严重程度:SEV-1(收入影响) | SEV-2(客户影响) | SEV-3(内部影响)
影响范围:[受影响用户数] | [收入损失额] | [是否违反 SLA:是/否]
发现方式:如何发现?(监控告警 / 客户反馈 / 内部发现)
发现延迟:从事件开始到首次告警的时间间隔

2. 时间线(SEV-1 事件需分钟级记录,SEV-2/3 事件可每 15 分钟为单位)

HH:MM - 事件描述
HH:MM - 首次告警触发
HH:MM - 团队被通知
HH:MM - 调查启动
HH:MM - 根因确认
HH:MM - 修复部署
HH:MM - 确认问题解决

3. 根因分析 —— 五个为什么

为什么 1:[直接原因]
为什么 2:[为什么会发生?]
为什么 3:[那又是为什么?]
为什么 4:[系统性原因]
为什么 5:[组织或文化层面的根本原因]

4. 影响因素评分

每项因素按 0–3 分评分(0=无关,3=主要贡献者):

因素分数备注
缺失或不足的监控
测试不充分
文档缺失
流程未遵守
知识集中(公交因子)
容量或扩展限制
第三方依赖问题
沟通失效
变更管理失败
技术债积累

5. 做得好的地方

列出 3–5 个响应过程中表现良好的方面:

  • 快速发现?运行手册有效?沟通顺畅?快速升级?

6. 行动项

每个行动项必须指定负责人和截止日期:

#行动内容负责人截止日期优先级状态
1P0/P1/P2待办

优先级定义:

  • P0:必须在下一个工作日前完成
  • P1:必须在一周内完成
  • P2:必须在下一冲刺周期或一个月内完成

7. 预防重复发生

  • [ ] 已添加或改进针对该故障模式的监控
  • [ ] 创建或更新了运行手册
  • [ ] 增加了测试覆盖
  • [ ] 是否需要架构变更?(如是,请创建 RFC)
  • [ ] 是否需要团队培训?

无责复盘原则

  1. 关注系统,而非个人
  2. 问“发生了什么”,而非“谁造成的”
  3. 假设每个人在当时都基于最佳意图和可用信息行事
  4. 目标是学习,而非惩罚
  5. 如果发现自己在错误旁写下某人姓名,请将其重写为流程漏洞

事件成本计算器

直接成本:
  停机期间收入损失:$___
  SLA 赔付金额:$___
  应急供应商/承包商费用:$___

间接成本:
  工程工时 × 全员成本率:___ 小时 × $___/小时 = $___
  客户流失风险(受影响用户数 × 流失概率 × 客单价):$___
  品牌/声誉损失(估算):$___

总事件成本:$___
每分钟停机成本:$___

每季度事件回顾

每季度分析所有事后复盘中的趋势:

  1. 前三大根因类别 —— 哪些领域应投入预防资源?
  2. 平均检测时间(MTTD) —— 监控能力是否在提升?
  3. 平均恢复时间(MTTR) —— 响应速度是否加快?
  4. 行动项完成率 —— 是否真正解决问题?
  5. 重复事件 —— 同一根本原因出现两次 = 系统性缺陷
  6. 成本趋势 —— 每季度总事件成本(应呈下降趋势)

行业特定复盘注意事项

行业关键关注点法规要求
金融科技交易完整性、审计日志SOX、PCI-DSS 事件报告
医疗健康PHI 泄露、患者安全HIPAA 泄露通知(60 天内)
SaaS 服务SLA 合规性、数据完整性SOC 2 事件管理
电子商务订单完整性、支付处理PCI-DSS、消费者保护法规
制造业安全事故、生产损失OSHA 报告要求

进阶建议

你的事后复盘揭示了 AI 代理应优先部署的位置——那些重复发生的故障、人工监控的盲区,以及在压力下失效的流程。

  • 找出最高成本的薄弱环节: [AI 收入泄漏计算器](https://afrexai-cto.github.io/ai-revenue-calculator/)
  • 行业专属部署指南: [AfrexAI 上下文包 —— $47](https://afrexai-cto.github.io/context-packs/)

- 选 3 个:$97 | 全部 10 个:$197 | 所有内容:$247

  • 部署首个智能体: [智能体设置向导](https://afrexai-cto.github.io/agent-setup/)

*由 [AfrexAI](https://afrexai-cto.github.io/context-packs/) 构建 —— 将事件模式转化为自动化机会。*

1
@1kalin

已收录 3 个 Skill

相关推荐