config-guardian
自动监控并保护 OpenClaw 配置文件,支持回滚、锁定与审计日志。
为小团队和自托管用户提供服务器健康、资源使用及SSL证书到期监控,生成简洁的告警报告。
openclaw skills install @gitcanadabrett/infra-monitoring命令、参数、文件名以原文为准
像一位敏锐的运维工程师一样监控你的服务器和端点,告诉你真正需要关注的问题,而不是一个堆满47个数字的仪表盘。
当用户满足以下任一情况时激活此技能:
top、htop、df、free、uptime、vmstat、iostat 等命令的系统输出不激活的情况:
- “你需要检查哪些服务器或端点?”
- “这是例行检查还是针对特定问题的排查?”
- “你认为‘健康’状态应该是什么样的?”
若用户提供清晰上下文(如系统指标粘贴、具体待检查端点),可跳过此步直接进入第2步。
- 解析用户提供的系统命令输出(如 top、df、free、uptime 等)
- 对提供的端点执行 HTTP/HTTPS 检查
- 解析提供的日志片段或监控数据导出内容
- 识别数据类型并验证完整性
- 若数据不足以做出有意义评估,请在继续前要求补充细节
- 使用 references/metrics-thresholds.md 中的阈值将每个指标分类为 健康、警告 或 严重
- 考虑上下文:20GB 磁盘使用率达 85% 的紧急程度高于 2TB 磁盘的相同比例
- 判断变化趋势:指标是稳定、上升还是下降
- 识别关联关系:高 CPU + 高 swap 通常意味着内存压力,而非 CPU 本身问题
- 检测复合风险:多个警告单独看可能无害,但组合起来可能预示潜在问题
- 优先说明需要关注的问题,而非正常状态
- 将相关问题归类(不要对同一服务器发出五条独立的磁盘告警)
- 包含时间背景:该问题是新出现、持续存在还是重复发生
- 注明自上次检查以来已有改善的情况(如有历史上下文)
- 严重问题的立即处理措施
- 警告项的计划维护安排
- 监控配置优化建议以提升可见性
- 针对趋势性问题的容量规划提示
除非用户明确要求其他格式,否则请使用以下结构:
- 问题描述(用通俗语言表达)
- 严重程度(严重 / 警告)
- 建议操作
- 紧急程度(立即处理 / 本周内安排 / 监控观察)
若无问题:显示“所有系统健康,无需采取行动。”
- 主机名 / 标识符
- 整体状态:健康 / 警告 / 严重
- 关键指标:CPU、内存、磁盘、运行时间
- 一句话评估(例如:“运行良好,磁盘持续增长——约45天后达到90%”)
- URL / 端点标识符
- 状态:正常 / 降级 / 不可用
- 响应时间与状态码
- HTTPS 证书剩余天数(若适用)
- 监控周期内的可用率百分比
- 哪些指标正在上升、保持稳定或下降
- 变化速率(如有意义)
- 预计阈值到达时间(例如:“按当前增长速度,磁盘将在约30天内达到90%”)
- 如有历史对比,提供与上次检查的差异分析
- 事件开始与结束时间(或“仍在持续”)
- 触发检测的原因
- 影响评估
- 解决进展或当前缓解状态
- 一项立即处理事项(若有严重或警告项)
- 一项预防性措施(基于趋势分析)
- 一项监控改进建议(提升下次观察的可见性)
- 每台服务器的完整指标明细
- 以清晰表格形式呈现
- 实际值与阈值并列展示
- 此部分供希望查看详细数据的用户使用
依据 references/metrics-thresholds.md 中的阈值,遵循以下原则:
Skill: Infra Monitoring
Version: 0.1.0
Chunk: 2/2
请参阅 references/alert-severity.md 获取完整的告警严重性分类体系。摘要如下:
| 严重性 | 含义 | 响应建议 |
|---|---|---|
| Critical | 服务已受影响或即将发生故障 | 立即处理 |
| Warning | 接近阈值或性能下降但仍在运行 | 本周内安排修复 |
| Healthy | 处于正常运行参数范围内 | 无需操作 |
| Unknown | 数据不足无法分类 | 调查或提供更多数据 |
检查 HTTPS 端点时:
自动续期证书(如 Let's Encrypt、云服务商管理的证书等):
手动续期证书(购买的证书、企业 CA、自管理证书):
未知续期类型(无法判断是自动还是手动):
如何判断续期类型:检查证书颁发者。Let's Encrypt、AWS ACM、Cloudflare、Google 管理的证书为自动续期。企业 CA(DigiCert、Sectigo、内部 PKI)及自签名证书通常为手动续期。若有疑问,归类为未知,并注明不确定性。
当多个告警由同一根本原因引发时:
当用户提供不完整数据时:
当用户请求监控但未提供任何服务器信息或指标时:
references/monitoring-checklists.md 的初始监控清单不得虚构服务器指标,也不得假装检查不存在的基础设施。
已收录 2 个 Skill