5. 运营期 · WorkKit
漂移监控配置
架构
工程
监控模型行为漂移、用户行为变化和数据分布偏移
触发场景
AI 产品上线后进入运营期。与传统软件的 BAU 维护不同,AI 产品需要持续监控模型行为漂移——不是"坏了再修",而是"看着它慢慢变坏并及时干预"。
输入清单
- ◆ 上线基准数据(评测集得分、延迟、成本)
- ◆ 监控仪表盘已就绪
- ◆ 回归评测流水线已就绪
▶ 提示词 基础版 / 进阶版
你是一位 AI 运维专家。请帮我设计漂移监控方案。
产品信息:
- 功能:{{FEATURE}}
- 基准准确率:{{BASELINE_ACCURACY}}
- 基准延迟:{{BASELINE_LATENCY}}
- 规模:{{DAU}} 日活
请设计漂移监控:
1. **模型行为漂移**:
- 输出分布变化检测
- 准确率趋势监控(周级别)
- 新型错误模式识别
2. **用户行为漂移**:
- 用户输入分布变化
- 新查询类型出现
- 用户满意度趋势
3. **数据分布漂移**:
- 输入数据特征变化
- 季节性模式识别
4. **干预阈值**:
- 何时需要人工审查
- 何时需要重新评测
- 何时需要模型更新
产出记录
将 AI 返回的结果填入下方模板,形成可追踪的项目文档。
漂移监控配置记录
功能名称:___
监控指标基线
| 指标 | 基线值 | 监控频率 | 干预阈值 |
|---|---|---|---|
| 输出准确率 | ___% | 每周 | 周环比下降 > ___% |
| 延迟 P95 | ___ms | 每日 | > ___ms |
| 新型错误率 | ___% | 每周 | > ___% |
| 用户输入分布偏移 | — | 每月 | KL 散度 > ___ |
漂移分类与应对
| 漂移类型 | 检测方式 | 应对措施 |
|---|---|---|
| 模型行为漂移 | ___ | ___ |
| 用户行为漂移 | ___ | ___ |
| 数据分布漂移 | ___ | ___ |
干预案
- 人工审查触发条件:___
- 重新评测触发条件:___
- 模型更新触发条件:___
配置人 / 日期:___ / ___
漂移监控架构
将 AI 返回的 Mermaid 流程图粘贴在下方。
___
查看填写示例
示例场景
【示例】漂移监控——智能客服意图识别
功能名称:AI 意图识别路由
监控指标基线
| 指标 | 基线值 | 监控频率 | 干预阈值 |
|---|---|---|---|
| 输出准确率 | 86% | 每周 | 周环比下降 > 5% |
| 延迟 P95 | 450ms | 每日 | > 800ms |
| 新型错误率 | 1.2% | 每周 | > 3% |
| 用户输入分布偏移 | — | 每月 | KL 散度 > 0.15 |
漂移分类与应对
| 漂移类型 | 检测方式 | 应对措施 |
|---|---|---|
| 模型行为漂移 | 每周采样评测 + 准确率趋势 | 更新 prompt 或升级模型 |
| 用户行为漂移 | 月度输入分布分析 | 补充新场景用例到评测集 |
| 数据分布漂移 | KL 散度月度监控 | 调整置信度阈值 |
干预案
- 人工审查触发条件:周准确率下降 > 3%
- 重新评测触发条件:月度 KL 散度 > 0.1
- 模型更新触发条件:连续 2 周准确率 < 83%
配置人 / 日期:王工 / 2026-06-01
漂移监控架构
flowchart TD
A[("/ 用户输入数据流 /")] --> B["模型预测引擎"]
B --> C{"准确率检查\n周级别采样"}
C -->|"达标 ≥83%"| D{"漂移检测"}
C -->|"低于阈值"| E["触发告警 🚨"]
D -->|"模型行为漂移"| F["模型漂移分析"]
D -->|"用户行为漂移"| G["输入分布分析"]
D -->|"数据分布漂移"| H["特征分布分析"]
D -->|"无漂移"| I["继续监控"]
F --> E
G --> E
H --> E
E --> J{"自动修复可行?"}
J -->|"是"| K["自动调整参数"]
J -->|"否"| L["人工审查队列"]
K --> M["验证修复效果"]
L --> N["专家评审与标注"]
N --> O["更新评测集"]
M --> C
O --> P["模型更新评估"]
自检 Checklist
- 是否同时监控了模型、用户和数据三个维度?
- 漂移阈值是否基于历史数据?
- 是否有自动化干预机制?
- 是否考虑了季节性波动?
衍生动作
- 监控就绪:进入反馈回流机制
- 缺少历史数据:先收集 2-4 周基线数据
作者 手记
漂移监控最容易被忽视的是"缓慢漂移"。准确率从 95% 掉到 94% 不起眼,但如果持续三个月每月掉 1%,最终就是严重问题。建议看趋势,不看绝对值。