YYMuse
4. 上线期 · WorkKit

监控指标与告警阈值

架构 工程

配置上线后的核心监控指标和告警阈值

触发场景

合规终审通过后、实际放流量前,必须配置好监控和告警。上线后如果没有人盯着仪表盘,等于蒙着眼开高速。

输入清单

  • 系统架构文档(含 Observability 设计)
  • 回归评测基准线
  • 灰度发布方案(含回滚触发条件)
提示词 基础版 / 进阶版
你是一位 AI 系统运维专家。请帮我配置上线监控。

系统信息:
- 功能:{{FEATURE}}
- 预估日活:{{DAU}}
- 可接受延迟:{{LATENCY_SLA}}

请设计监控方案:
1. **核心指标**:
   - 准确率(基于线上采样评测)
   - 延迟(P50、P95、P99)
   - Token 消耗和成本
   - 错误率和异常率
2. **告警阈值**:
   - 每个指标的 Warning 和 Critical 级别
   - 告警通知渠道
3. **仪表盘布局**:关键指标的一页总览
4. **采样评测机制**:如何在线上持续评估准确率

产出记录

将 AI 返回的结果填入下方模板,形成可追踪的项目文档。

监控指标与告警配置记录

功能名称:___

核心指标与告警阈值

指标 基准值 Warning Critical 通知渠道
准确率(线上采样) ___% < ___% < ___% ___
延迟 P50 / P95 / P99 ___ms > ___ms > ___ms ___
Token 日消耗 ___ > ___ > ___ ___
错误率 ___% > ___% > ___% ___
日成本(元) ___ > ___ > ___ ___

采样评测机制

  • 采样比例:___%
  • 评测频率:每 ___ 小时
  • 评测集子集:___ 条用例

仪表盘信息

  • 仪表盘 URL:___
  • 值班人:___
  • 告警通知渠道:___

配置人 / 日期:___ / ___

查看填写示例
示例场景

【示例】监控指标与告警——智能客服意图识别

功能名称:AI 意图识别路由

核心指标与告警阈值

指标 基准值 Warning Critical 通知渠道
准确率(线上采样) 86% < 85% < 80% 飞书群 + 电话
延迟 P50 / P95 200ms / 450ms > 800ms > 2s 飞书群
Token 日消耗 125 万 > 150 万 > 200 万 飞书群
错误率 1.2% > 3% > 5% 飞书群 + 电话
日成本(元) ¥80 > ¥100 > ¥150 飞书群

采样评测机制

  • 采样比例:5%
  • 评测频率:每 6 小时
  • 评测集子集:10 条(从 60 条中轮换抽取)

仪表盘信息

  • 仪表盘 URL:grafana.internal/d/ai-intent-classification
  • 值班人:王工(架构)
  • 告警通知渠道:飞书群"AI 意图识别运维"

配置人 / 日期:王工 / 2026-05-08

自检 Checklist

  • 告警阈值是否基于基准数据(而不是拍脑袋)?
  • 是否同时监控了性能和质量指标?
  • 告警是否可操作(收到告警知道该做什么)?
  • 是否有成本监控?

衍生动作

  • 监控就绪:进入上线公告准备
  • 缺少基线数据:先在灰度 Stage 1 收集基线

作者 手记

告警阈值设置是门艺术。太松等于没有告警,太紧会告警疲劳。建议上线初期设紧一些(宁可多一些误报),运行一周后根据实际数据调整。

← 返回 上线期