4. 上线期 · WorkKit

监控指标与告警阈值

架构工程

配置上线后的核心监控指标和告警阈值

触发场景

合规终审通过后、实际放流量前，必须配置好监控和告警。上线后如果没有人盯着仪表盘，等于蒙着眼开高速。

输入清单

◆ 系统架构文档（含 Observability 设计）
◆ 回归评测基准线
◆ 灰度发布方案（含回滚触发条件）

▶ 提示词基础版 / 进阶版

你是一位 AI 系统运维专家。请帮我配置上线监控。

系统信息：
- 功能：{{FEATURE}}
- 预估日活：{{DAU}}
- 可接受延迟：{{LATENCY_SLA}}

请设计监控方案：
1. **核心指标**：
   - 准确率（基于线上采样评测）
   - 延迟（P50、P95、P99）
   - Token 消耗和成本
   - 错误率和异常率
2. **告警阈值**：
   - 每个指标的 Warning 和 Critical 级别
   - 告警通知渠道
3. **仪表盘布局**：关键指标的一页总览
4. **采样评测机制**：如何在线上持续评估准确率

# Role & Constraints
你是一位资深 SRE（Site Reliability Engineer），负责管理 AI 推理平台的 SLA。你精通 Prometheus + Grafana 可观测性体系，熟练设计 SLO/SLI 指标体系，擅长基于错误预算（Error Budget）和燃烧率（Burn Rate）的告警策略，对 P1-P4 分级响应有丰富实战经验。

约束条件：
- 所有告警必须基于 SLO/SLI 框架，禁止"拍脑袋"设阈值
- 告警必须分级（P1-P4），每级有明确的响应 SLA 和升级路径
- 监控必须同时覆盖性能指标和质量指标
- 成本监控为必选项，不是可选项
- 告警规则必须经过 Burn Rate 验证，避免告警疲劳

# Context
系统信息：
- 功能：{{FEATURE}}
- 预估日活（DAU）：{{DAU}}
- 可接受延迟（Latency SLA）：{{LATENCY_SLA}}
- 当前 SLI 目标：可用性 ≥ 99.9%，准确率 ≥ 85%
- 监控平台：Prometheus + Grafana
- 通知渠道：飞书 / PagerDuty

业务背景：AI 推理平台即将灰度上线新功能。平台当前日处理请求量 50 万+，SLA 要求可用性 99.9%（月度错误预算约 43 分钟）。过去一个季度发生过 2 次 P2 告警遗漏（因为阈值设置不当），需要建立更科学的告警体系。

# Goals
1. 设计完整的 SLO/SLI 指标体系（至少 6 个 SLI）
2. 基于 Error Budget 和 Burn Rate 计算 4 级告警阈值
3. 输出可直接导入 Prometheus 的告警规则 YAML
4. 设计 P1-P4 分级响应 SLA 和升级矩阵
5. 输出 Grafana 仪表盘布局 Schema

# Methodology
采用 **SLO/SLI + Burn Rate Alerting** 方法论：

**Step 1 — SLI 定义**
为 AI 推理平台定义 6+ 个 SLI：
- 可用性（Availability）：请求成功率
- 延迟（Latency）：P50/P95/P99
- 准确率（Accuracy）：基于线上采样评测
- 吞吐量（Throughput）：RPS
- 错误率（Error Rate）：4xx / 5xx / timeout
- 成本效率（Cost Efficiency）：每千次请求成本

**Step 2 — Error Budget 计算**
基于月度 SLI 目标计算错误预算：
- 99.9% 可用性 → 月度错误预算 ≈ 43.2 分钟
- 不同燃烧率对应不同的告警级别和响应时间
- 快速燃烧（14.4x）：1 小时内耗尽预算 → P1
- 中速燃烧（6x）：6 小时内耗尽预算 → P2
- 慢速燃烧（1x）：43 小时内耗尽预算 → P3

**Step 3 — P1-P4 分级响应 SLA**
| 级别 | 含义 | 响应时间 | 升级路径 |
|------|------|---------|---------|
| P1 | 服务不可用 / 大面积故障 | 5 分钟 | 立即电话 + 全组 |
| P2 | SLO 违规风险 | 15 分钟 | 飞书 @值班 + 30 分钟升级 P1 |
| P3 | 指标异常趋势 | 1 小时 | 飞书群通知 + 4 小时升级 P2 |
| P4 | 信息通知 | 下一工作日 | 飞书群消息 |

**Step 4 — Prometheus 告警规则**
使用 Prometheus Alerting Rules 格式，包含：expr（PromQL 表达式）、for（持续时间）、labels（severity、team）、annotations（summary、runbook_url）。

**Step 5 — 仪表盘布局设计**
设计一页总览仪表盘，包含：SLO 燃烧率面板、核心指标趋势图、告警历史、成本趋势。

# Output Format

请按以下结构输出，包含 2 个代码块：

---

## 1. Prometheus 告警规则（YAML）

```yaml
groups:
  - name: ai_inference_slo_alerts
    rules:
      - alert: AIAccuracyBurnRateCritical
        expr: |
          (
            sum(rate(ai_inference_accuracy_failures_total[1h]))
            /
            sum(rate(ai_inference_requests_total[1h]))
          ) > 0.15
          and
          (
            sum(rate(ai_inference_accuracy_failures_total[5m]))
            /
            sum(rate(ai_inference_requests_total[5m]))
          ) > 0.15
        for: 2m
        labels:
          severity: P1
          team: ai-platform
        annotations:
          summary: "AI 准确率快速燃烧，SLO 即将违规"
          runbook_url: "https://wiki.internal/runbook/ai-accuracy-burn"
      # ... 更多告警规则
```

## 2. 仪表盘布局 Schema（YAML）

```yaml
dashboard:
  title: "AI 推理平台 SLO 总览"
  panels:
    - title: "SLO 燃烧率"
      type: gauge
      targets: [___]
    - title: "准确率趋势"
      type: timeseries
      targets: [___]
    - title: "延迟分布 (P50/P95/P99)"
      type: timeseries
      targets: [___]
    - title: "成本趋势"
      type: stat
      targets: [___]
```

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

监控指标与告警配置记录

功能名称：___

核心指标与告警阈值

指标	基准值	Warning	Critical	通知渠道
准确率（线上采样）	___%	< ___%	< ___%	___
延迟 P50 / P95 / P99	___ms	> ___ms	> ___ms	___
Token 日消耗	___	> ___	> ___	___
错误率	___%	> ___%	> ___%	___
日成本（元）	___	> ___	> ___	___

采样评测机制

采样比例：___%
评测频率：每 ___ 小时
评测集子集：___ 条用例

仪表盘信息

仪表盘 URL：___
值班人：___
告警通知渠道：___

配置人 / 日期：___ / ___

查看填写示例

示例场景

【示例】监控指标与告警——智能客服意图识别

功能名称：AI 意图识别路由

核心指标与告警阈值

指标	基准值	Warning	Critical	通知渠道
准确率（线上采样）	86%	< 85%	< 80%	飞书群 + 电话
延迟 P50 / P95	200ms / 450ms	> 800ms	> 2s	飞书群
Token 日消耗	125 万	> 150 万	> 200 万	飞书群
错误率	1.2%	> 3%	> 5%	飞书群 + 电话
日成本（元）	¥80	> ¥100	> ¥150	飞书群

采样评测机制

采样比例：5%
评测频率：每 6 小时
评测集子集：10 条（从 60 条中轮换抽取）

仪表盘信息

仪表盘 URL：grafana.internal/d/ai-intent-classification
值班人：王工（架构）
告警通知渠道：飞书群"AI 意图识别运维"

配置人 / 日期：王工 / 2026-05-08

自检 Checklist

告警阈值是否基于基准数据（而不是拍脑袋）？
是否同时监控了性能和质量指标？
告警是否可操作（收到告警知道该做什么）？
是否有成本监控？

衍生动作

监控就绪：进入上线公告准备
缺少基线数据：先在灰度 Stage 1 收集基线

作者手记

告警阈值设置是门艺术。太松等于没有告警，太紧会告警疲劳。建议上线初期设紧一些（宁可多一些误报），运行一周后根据实际数据调整。

← 返回上线期

触发场景

输入清单

产出记录

监控指标与告警配置记录

核心指标与告警阈值

采样评测机制

仪表盘信息

【示例】监控指标与告警——智能客服意图识别

核心指标与告警阈值

采样评测机制

仪表盘信息

自检 Checklist

衍生动作

作者 手记

作者手记