Ot Aiops
支持多协议工业设备数据采集与智能诊断,具备高风险写入防护机制。
基于用户旅程的SLO/SLI深度工作流,用于定义可靠性目标与错误预算策略。
openclaw skills install @mikeclaw007/observability-slos命令、参数、文件名以原文为准
SLO 将工程工作与用户感知的可靠性联系起来。SLI 必须可从系统中测量,同时基于用户旅程。
触发条件:
初始建议:
采用六个阶段:(1) 选择用户旅程,(2) 定义 SLI,(3) 设定 SLO 目标与时间窗口,(4) 错误预算策略,(5) 对预算消耗进行告警,(6) 回顾与迭代。确认指标栈和来自供应商的依赖项 SLO。
目标: 一旦中断就会产生重大影响的关键路径——如结账、登录、API 同步,而非“CPU 使用率低”。
3–10 条用户旅程,按业务影响和发生频率排序。
退出条件: 每条旅程用一段话描述:用户意图 + 失败表现。
目标: 在一段时间内,良好事件数 / 总事件数的比率——实现方式需明确。
退出条件: 提供 SLI 公式及数据来源(指标、日志、探针)。
目标: 目标值(例如每月 99.9%)意味着允许的故障分钟数——必须明确表达。
退出条件: 发布一张表格:旅程 → SLI → 目标 → 时间窗口。
目标: 当预算处于健康状态或耗尽时,应采取的行动策略。
退出条件: 策略文档已撰写,并获得产品团队签字确认。
目标: 告警关注预算消耗速率,而非每个微小波动——使用谷歌风格的 SLO 告警时,采用多时间窗口 + 多消耗速率模式。
退出条件: 告警规则已与运行手册(runbooks)关联。
目标: SLO 会随架构演进而漂移——需每季度回顾一次,根据数据调整目标。
已收录 1 个 Skill