MLOps Observability

提供机器学习全链路可观测性,涵盖可复现、数据漂移检测与模型解释。

已扫描
适合谁
机器学习工程师、MLOps实践者
不适合谁
无机器学习背景的普通用户、无需模型监控的非技术岗位
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @guohongbin-git/mlops-observability-cn

Skill 说明

命令、参数、文件名以原文为准

MLOps 可观测性 👁️

透明系统 - 可复现、可追溯、可监控。

功能

1. MLflow 跟踪 📊

完整的跟踪配置:

cp references/mlflow-tracking.py ../your-project/src/tracking.py

跟踪内容包括:

  • 配置参数(params)
  • 指标数据(准确率、损失值)
  • 模型文件(sklearn/pytorch)
  • 数据集信息(数据血缘)
  • Git 提交记录(可复现性)

2. 数据漂移检测 📉

使用 Evidently 工具:

from evidently import Report
from evidently.metrics import DataDriftTable

report = Report(metrics=[DataDriftTable()])
report.run(reference_data=train, current_data=prod)

3. 可解释性(SHAP) 🔍

import shap

explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)
shap.summary_plot(shap_values, X)

快速开始

# 复制跟踪代码
cp references/mlflow-tracking.py ./src/

# 在训练脚本中添加:
# from tracking import setup_tracking, log_training_run

可复现性

# 设置所有随机种子
import random, numpy as np, torch
random.seed(42)
np.random.seed(42)
torch.manual_seed(42)

# 记录 Git 提交哈希
import git
commit = git.Repo().head.commit.hexsha
mlflow.log_param("git_commit", commit)

监控检查清单

  • [ ] 随机种子已固定
  • [ ] MLflow 跟踪已启用
  • [ ] 系统指标已记录
  • [ ] 数据漂移检测已配置
  • [ ] SHAP 解释结果已保存
  • [ ] 告警机制已设置

告警通知

  • 本地环境plyer 通知
  • 生产环境:PagerDuty(严重问题) / Slack(警告)

作者

源自 [MLOps 编程课程](https://github.com/MLOps-Courses/mlops-coding-skills)

更新日志

v1.0.0 (2026-02-18)

  • 初始 OpenClaw 转换版本
  • 添加 MLflow 跟踪代码
GG
@guohongbin-git

已收录 5 个 Skill

相关推荐