5. 运营期 · WorkKit

漂移监控配置

架构工程

监控模型行为漂移、用户行为变化和数据分布偏移

触发场景

AI 产品上线后进入运营期。与传统软件的 BAU 维护不同，AI 产品需要持续监控模型行为漂移——不是"坏了再修"，而是"看着它慢慢变坏并及时干预"。

输入清单

◆ 上线基准数据（评测集得分、延迟、成本）
◆ 监控仪表盘已就绪
◆ 回归评测流水线已就绪

▶ 提示词基础版 / 进阶版

你是一位 AI 运维专家。请帮我设计漂移监控方案。

产品信息：
- 功能：{{FEATURE}}
- 基准准确率：{{BASELINE_ACCURACY}}
- 基准延迟：{{BASELINE_LATENCY}}
- 规模：{{DAU}} 日活

请设计漂移监控：
1. **模型行为漂移**：
   - 输出分布变化检测
   - 准确率趋势监控（周级别）
   - 新型错误模式识别
2. **用户行为漂移**：
   - 用户输入分布变化
   - 新查询类型出现
   - 用户满意度趋势
3. **数据分布漂移**：
   - 输入数据特征变化
   - 季节性模式识别
4. **干预阈值**：
   - 何时需要人工审查
   - 何时需要重新评测
   - 何时需要模型更新

你是一位资深 ML 监控工程师（ML Monitoring Engineer），专注于统计漂移检测方法论。
你精通 KL 散度、K-S 检验、PSI（Population Stability Index）等统计工具，
能够区分 concept drift（概念漂移）与 data drift（数据漂移），并设计合理的季节性调整策略。

## 核心概念澄清

**概念漂移（Concept Drift）**：输入 X 与输出 Y 的关系发生了变化。
例如用户说"帮我退一下"以前意思是退货，现在用户可能指的是退款。
P(Y|X) 发生了变化，但 P(X) 可能不变。

**数据漂移（Data Drift）**：输入数据的分布 P(X) 发生了变化，但模型本身的映射关系没有变。
例如新用户群体的查询模式与训练数据不同。

两者需要不同的检测策略和应对方案——检测错误分类会导致错误的干预措施。

## 产品信息

- 功能：{{FEATURE}}
- 基准准确率：{{BASELINE_ACCURACY}}
- 基准延迟：{{BASELINE_LATENCY}}
- 上线时间：{{LAUNCH_DATE}}
- 已运行天数：{{RUNNING_DAYS}}
- 规模：{{DAU}} 日活

## 请设计完整的漂移监控方案

### 1. 模型行为漂移检测

使用**统计检验方法**（不是简单的阈值对比）：

- **KL 散度（Kullback-Leibler Divergence）**：
  用于衡量输出概率分布的变化。适合连续型输出或置信度分数。
  KL > 0.1 表示轻微漂移，> 0.2 表示显著漂移。

- **K-S 检验（Kolmogorov-Smirnov Test）**：
  非参数检验，比较两个累积分布函数的最大差异。
  适合检测数值型特征的分布变化。p-value < 0.05 表示显著差异。

- **PSI（Population Stability Index）**：
  行业标准的分布稳定性指标。
  PSI < 0.1 稳定，0.1–0.25 需关注，> 0.25 需要干预。

请为每个指标配置具体的统计参数和检测频率。

### 2. 用户行为漂移检测

- 输入分布变化（使用卡方检验检测分类分布变化）
- 新查询类型出现（使用聚类算法检测新簇）
- 用户满意度趋势（结合 A/B 测试分析）

### 3. 数据分布漂移检测

- 输入特征分布变化（K-S 检验 + Wasserstein 距离）
- **季节性模式识别**：使用时间序列分解（STL 分解）区分趋势漂移和季节性波动
- 长短期漂移分离：7 天滑动窗口 vs 30 天滑动窗口

### 4. 干预阈值设计

基于统计显著性而非任意数值：
- p-value < 0.05 → 人工审查
- p-value < 0.01 + 连续 2 期 → 重新评测
- 连续 3 期 p-value < 0.01 → 模型更新

### 5. 输出格式

请生成以下内容：

```yaml
# 漂移监控配置
monitoring:
  feature: "{{FEATURE}}"
  baseline_date: "{{LAUNCH_DATE}}"

  statistical_methods:
    kl_divergence:
      warning_threshold: 0.1
      critical_threshold: 0.2
      window_size_days: 30
      comparison: "rolling_vs_baseline"
    ks_test:
      significance_level: 0.05
      features_to_monitor: []
      correction: "bonferroni"  # 多重检验校正
    psi:
      bins: 10
      stable: 0.1
      investigate: 0.25

  drift_detection:
    concept_drift:
      method: "accuracy_trend_with_control_charts"
      control_limits: "3_sigma"
      min_samples: 200
      detection_window_days: 7
    data_drift:
      method: "feature_distribution_comparison"
      primary_test: "ks_test"
      secondary_test: "wasserstein_distance"
      threshold_multiplier: 1.5

  seasonality:
    enabled: true
    method: "STL_decomposition"
    period: 7  # 天
    trend_vs_seasonal_ratio: 2.0  # 趋势成分 > 2 倍季节成分才告警

  alert_rules:
    - level: "warning"
      condition: "any_stat_test_p_value < 0.05"
      action: "human_review"
      cooldown_hours: 24
    - level: "critical"
      condition: "any_stat_test_p_value < 0.01 AND consecutive_periods >= 2"
      action: "trigger_reevaluation"
      cooldown_hours: 48
    - level: "emergency"
      condition: "consecutive_periods >= 3 AND accuracy_drop > 5%"
      action: "model_update_required"
      notify: ["ml_team", "product_owner"]
```

以及告警规则说明和每项监控的检测频率、统计方法、阈值依据。

最后，用 Mermaid stateDiagram-v2 输出告警状态转移图，格式参考：

```mermaid
stateDiagram-v2
    [*] --> 正常
    正常 --> 警告 : p-value < 0.05
    警告 --> 严重 : 连续2期 p-value < 0.01
    严重 --> 紧急干预 : 连续3期 + 准确率下降>5%
    警告 --> 正常 : 指标恢复正常
    严重 --> 警告 : 部分改善
    紧急干预 --> [*] : 模型更新完成
```

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

漂移监控配置记录

功能名称：___

监控指标基线

指标	基线值	监控频率	干预阈值
输出准确率	___%	每周	周环比下降 > ___%
延迟 P95	___ms	每日	> ___ms
新型错误率	___%	每周	> ___%
用户输入分布偏移	—	每月	KL 散度 > ___

漂移分类与应对

漂移类型	检测方式	应对措施
模型行为漂移	___	___
用户行为漂移	___	___
数据分布漂移	___	___

干预案

人工审查触发条件：___
重新评测触发条件：___
模型更新触发条件：___

配置人 / 日期：___ / ___

漂移监控架构

将 AI 返回的 Mermaid 流程图粘贴在下方。

___

查看填写示例

示例场景

【示例】漂移监控——智能客服意图识别

功能名称：AI 意图识别路由

监控指标基线

指标	基线值	监控频率	干预阈值
输出准确率	86%	每周	周环比下降 > 5%
延迟 P95	450ms	每日	> 800ms
新型错误率	1.2%	每周	> 3%
用户输入分布偏移	—	每月	KL 散度 > 0.15

漂移分类与应对

漂移类型	检测方式	应对措施
模型行为漂移	每周采样评测 + 准确率趋势	更新 prompt 或升级模型
用户行为漂移	月度输入分布分析	补充新场景用例到评测集
数据分布漂移	KL 散度月度监控	调整置信度阈值

干预案

人工审查触发条件：周准确率下降 > 3%
重新评测触发条件：月度 KL 散度 > 0.1
模型更新触发条件：连续 2 周准确率 < 83%

配置人 / 日期：王工 / 2026-06-01

漂移监控架构

flowchart TD A[("/ 用户输入数据流 /")] --> B["模型预测引擎"] B --> C{"准确率检查\n周级别采样"} C -->|"达标 ≥83%"| D{"漂移检测"} C -->|"低于阈值"| E["触发告警 🚨"] D -->|"模型行为漂移"| F["模型漂移分析"] D -->|"用户行为漂移"| G["输入分布分析"] D -->|"数据分布漂移"| H["特征分布分析"] D -->|"无漂移"| I["继续监控"] F --> E G --> E H --> E E --> J{"自动修复可行?"} J -->|"是"| K["自动调整参数"] J -->|"否"| L["人工审查队列"] K --> M["验证修复效果"] L --> N["专家评审与标注"] N --> O["更新评测集"] M --> C O --> P["模型更新评估"]

自检 Checklist

是否同时监控了模型、用户和数据三个维度？
漂移阈值是否基于历史数据？
是否有自动化干预机制？
是否考虑了季节性波动？

衍生动作

监控就绪：进入反馈回流机制
缺少历史数据：先收集 2-4 周基线数据

作者手记

漂移监控最容易被忽视的是"缓慢漂移"。准确率从 95% 掉到 94% 不起眼，但如果持续三个月每月掉 1%，最终就是严重问题。建议看趋势，不看绝对值。

← 返回运营期

触发场景

输入清单

产出记录

漂移监控配置记录

监控指标基线

漂移分类与应对

干预案

漂移监控架构

【示例】漂移监控——智能客服意图识别

监控指标基线

漂移分类与应对

干预案

漂移监控架构

自检 Checklist

衍生动作

作者 手记

作者手记