4. 上线期 · WorkKit
监控指标与告警阈值
架构
工程
配置上线后的核心监控指标和告警阈值
触发场景
合规终审通过后、实际放流量前,必须配置好监控和告警。上线后如果没有人盯着仪表盘,等于蒙着眼开高速。
输入清单
- ◆ 系统架构文档(含 Observability 设计)
- ◆ 回归评测基准线
- ◆ 灰度发布方案(含回滚触发条件)
▶ 提示词 基础版 / 进阶版
你是一位 AI 系统运维专家。请帮我配置上线监控。
系统信息:
- 功能:{{FEATURE}}
- 预估日活:{{DAU}}
- 可接受延迟:{{LATENCY_SLA}}
请设计监控方案:
1. **核心指标**:
- 准确率(基于线上采样评测)
- 延迟(P50、P95、P99)
- Token 消耗和成本
- 错误率和异常率
2. **告警阈值**:
- 每个指标的 Warning 和 Critical 级别
- 告警通知渠道
3. **仪表盘布局**:关键指标的一页总览
4. **采样评测机制**:如何在线上持续评估准确率
产出记录
将 AI 返回的结果填入下方模板,形成可追踪的项目文档。
监控指标与告警配置记录
功能名称:___
核心指标与告警阈值
| 指标 | 基准值 | Warning | Critical | 通知渠道 |
|---|---|---|---|---|
| 准确率(线上采样) | ___% | < ___% | < ___% | ___ |
| 延迟 P50 / P95 / P99 | ___ms | > ___ms | > ___ms | ___ |
| Token 日消耗 | ___ | > ___ | > ___ | ___ |
| 错误率 | ___% | > ___% | > ___% | ___ |
| 日成本(元) | ___ | > ___ | > ___ | ___ |
采样评测机制
- 采样比例:___%
- 评测频率:每 ___ 小时
- 评测集子集:___ 条用例
仪表盘信息
- 仪表盘 URL:___
- 值班人:___
- 告警通知渠道:___
配置人 / 日期:___ / ___
查看填写示例
示例场景
【示例】监控指标与告警——智能客服意图识别
功能名称:AI 意图识别路由
核心指标与告警阈值
| 指标 | 基准值 | Warning | Critical | 通知渠道 |
|---|---|---|---|---|
| 准确率(线上采样) | 86% | < 85% | < 80% | 飞书群 + 电话 |
| 延迟 P50 / P95 | 200ms / 450ms | > 800ms | > 2s | 飞书群 |
| Token 日消耗 | 125 万 | > 150 万 | > 200 万 | 飞书群 |
| 错误率 | 1.2% | > 3% | > 5% | 飞书群 + 电话 |
| 日成本(元) | ¥80 | > ¥100 | > ¥150 | 飞书群 |
采样评测机制
- 采样比例:5%
- 评测频率:每 6 小时
- 评测集子集:10 条(从 60 条中轮换抽取)
仪表盘信息
- 仪表盘 URL:grafana.internal/d/ai-intent-classification
- 值班人:王工(架构)
- 告警通知渠道:飞书群"AI 意图识别运维"
配置人 / 日期:王工 / 2026-05-08
自检 Checklist
- 告警阈值是否基于基准数据(而不是拍脑袋)?
- 是否同时监控了性能和质量指标?
- 告警是否可操作(收到告警知道该做什么)?
- 是否有成本监控?
衍生动作
- 监控就绪:进入上线公告准备
- 缺少基线数据:先在灰度 Stage 1 收集基线
作者 手记
告警阈值设置是门艺术。太松等于没有告警,太紧会告警疲劳。建议上线初期设紧一些(宁可多一些误报),运行一周后根据实际数据调整。