YYMuse
5. 运营期 · WorkKit

漂移监控配置

架构 工程

监控模型行为漂移、用户行为变化和数据分布偏移

触发场景

AI 产品上线后进入运营期。与传统软件的 BAU 维护不同,AI 产品需要持续监控模型行为漂移——不是"坏了再修",而是"看着它慢慢变坏并及时干预"。

输入清单

  • 上线基准数据(评测集得分、延迟、成本)
  • 监控仪表盘已就绪
  • 回归评测流水线已就绪
提示词 基础版 / 进阶版
你是一位 AI 运维专家。请帮我设计漂移监控方案。

产品信息:
- 功能:{{FEATURE}}
- 基准准确率:{{BASELINE_ACCURACY}}
- 基准延迟:{{BASELINE_LATENCY}}
- 规模:{{DAU}} 日活

请设计漂移监控:
1. **模型行为漂移**:
   - 输出分布变化检测
   - 准确率趋势监控(周级别)
   - 新型错误模式识别
2. **用户行为漂移**:
   - 用户输入分布变化
   - 新查询类型出现
   - 用户满意度趋势
3. **数据分布漂移**:
   - 输入数据特征变化
   - 季节性模式识别
4. **干预阈值**:
   - 何时需要人工审查
   - 何时需要重新评测
   - 何时需要模型更新

产出记录

将 AI 返回的结果填入下方模板,形成可追踪的项目文档。

漂移监控配置记录

功能名称:___

监控指标基线

指标 基线值 监控频率 干预阈值
输出准确率 ___% 每周 周环比下降 > ___%
延迟 P95 ___ms 每日 > ___ms
新型错误率 ___% 每周 > ___%
用户输入分布偏移 每月 KL 散度 > ___

漂移分类与应对

漂移类型 检测方式 应对措施
模型行为漂移 ___ ___
用户行为漂移 ___ ___
数据分布漂移 ___ ___

干预案

  • 人工审查触发条件:___
  • 重新评测触发条件:___
  • 模型更新触发条件:___

配置人 / 日期:___ / ___

漂移监控架构

将 AI 返回的 Mermaid 流程图粘贴在下方。

___
查看填写示例
示例场景

【示例】漂移监控——智能客服意图识别

功能名称:AI 意图识别路由

监控指标基线

指标 基线值 监控频率 干预阈值
输出准确率 86% 每周 周环比下降 > 5%
延迟 P95 450ms 每日 > 800ms
新型错误率 1.2% 每周 > 3%
用户输入分布偏移 每月 KL 散度 > 0.15

漂移分类与应对

漂移类型 检测方式 应对措施
模型行为漂移 每周采样评测 + 准确率趋势 更新 prompt 或升级模型
用户行为漂移 月度输入分布分析 补充新场景用例到评测集
数据分布漂移 KL 散度月度监控 调整置信度阈值

干预案

  • 人工审查触发条件:周准确率下降 > 3%
  • 重新评测触发条件:月度 KL 散度 > 0.1
  • 模型更新触发条件:连续 2 周准确率 < 83%

配置人 / 日期:王工 / 2026-06-01

漂移监控架构

flowchart TD A[("/ 用户输入数据流 /")] --> B["模型预测引擎"] B --> C{"准确率检查\n周级别采样"} C -->|"达标 ≥83%"| D{"漂移检测"} C -->|"低于阈值"| E["触发告警 🚨"] D -->|"模型行为漂移"| F["模型漂移分析"] D -->|"用户行为漂移"| G["输入分布分析"] D -->|"数据分布漂移"| H["特征分布分析"] D -->|"无漂移"| I["继续监控"] F --> E G --> E H --> E E --> J{"自动修复可行?"} J -->|"是"| K["自动调整参数"] J -->|"否"| L["人工审查队列"] K --> M["验证修复效果"] L --> N["专家评审与标注"] N --> O["更新评测集"] M --> C O --> P["模型更新评估"]

自检 Checklist

  • 是否同时监控了模型、用户和数据三个维度?
  • 漂移阈值是否基于历史数据?
  • 是否有自动化干预机制?
  • 是否考虑了季节性波动?

衍生动作

  • 监控就绪:进入反馈回流机制
  • 缺少历史数据:先收集 2-4 周基线数据

作者 手记

漂移监控最容易被忽视的是"缓慢漂移"。准确率从 95% 掉到 94% 不起眼,但如果持续三个月每月掉 1%,最终就是严重问题。建议看趋势,不看绝对值。

← 返回 运营期