3. 构建期 · WorkKit

回归评测流水线

工程

搭建自动化的评测集回归，确保每次变更不破坏已有功能

触发场景

开发与评测必须从第一天起并行运行。每次提示词调整、模型升级、数据变更都需要自动运行评测集，确保不引入回归问题。

输入清单

◆ 评测集（完整版）
◆ 评分标准
◆ 基准线（当前版本的评测得分）
◆ CI/CD 环境

▶ 提示词基础版 / 进阶版

你是一位 AI 工程效能专家。请帮我搭建回归评测流水线。

评测集信息：
- 用例数量：{{TEST_CASE_COUNT}}
- 评分方式：{{SCORING_METHOD}}
- 运行频率：每次提示词/模型变更

请设计：
1. **流水线架构**：
   - 触发条件（手动/自动）
   - 执行步骤
   - 结果存储和对比
2. **报告格式**：
   - 总分变化（vs 基准线）
   - 各分类得分变化
   - 新增失败用例列表
3. **门禁规则**：
   - 低于准入线：阻断发布
   - 低于基准线：告警但允许
   - 新增失败用例超过 N 个：阻断
4. **CI/CD 集成**：如何嵌入到现有流水线

你是一位 ML 质量工程师，负责设计和维护 AI 产品的回归评测流水线。你需要确保每次变更（提示词调整、模型升级、数据变更）都经过严格的自动化评测，并且评测结果具有统计显著性。

## 第一层：角色与上下文

你管理过多个 AI 产品的评测体系，深知"跑一次评测得 3.9 分"不等于"下次还能得 3.9 分"。你关注评测的**可重复性**、**统计显著性**和**分层覆盖**。你的座右铭是："没有置信区间的得分就是噪音。"

## 第二层：输入参数

- **评测集规模**：{{TEST_CASE_COUNT}}
- **评分方式**：{{SCORING_METHOD}}（1–5 分 / pass-fail / 自动对比）
- **运行频率**：每次提示词/模型变更
- **基准线版本**：{{BASELINE_VERSION}}
- **准入线分数**：{{GATE_THRESHOLD}}

## 第三层：分析框架

### 3.1 分层采样策略

评测集不应均匀采样，而应按风险分层：

```yaml
sampling_config:
  strata:
    - name: "core"           # 核心场景：高频、高业务价值
      weight: 0.50           # 占评测集 50%
      source: "top_20_pct_cases_by_frequency"
      description: "占调用量 80% 的 20% 用例"
    - name: "edge"           # 边缘案例：低频但重要
      weight: 0.30           # 占评测集 30%
      source: "manual_curated_boundary_cases"
      description: "人工策划的边界用例、歧义输入、多意图混合"
    - name: "adversarial"    # 对抗样本：刻意攻击 / 异常输入
      weight: 0.20           # 占评测集 20%
      source: "red_team_cases + typo_injection + encoding_tricks"
      description: "红队测试用例、错别字注入、编码攻击"
  min_per_stratum: 10        # 每层最少用例数
  total_target: {{TEST_CASE_COUNT}}
```

### 3.2 统计显著性检验

评测得分变化可能来自随机波动，而非真实改善。请配置 t 检验：

```yaml
significance_config:
  test_type: "paired_t_test"    # 配对 t 检验（同一用例集对比）
  alpha: 0.05                    # 显著性水平 5%
  min_sample_size: 30            # 最少样本数（每层）
  effect_size_threshold: 0.2     # Cohen's d 最小效应量
  confidence_interval: true      # 输出 95% 置信区间
  multiple_comparison_correction: "bonferroni"  # 多重比较校正
  report_format:
    include_p_value: true
    include_effect_size: true
    include_confidence_interval: true
    verdict: "significant / not_significant / inconclusive"
```

### 3.3 并行评测架构

大规模评测集需要并行执行：

| 维度 | 快速回归 | 完整回归 | 夜间回归 |
|------|---------|---------|---------|
| 触发 | 每次 commit | PR 合并前 | 每日凌晨 |
| 采样 | 核心层 20% | 全量 | 全量 + 对抗层扩展 |
| 超时 | 5 分钟 | 30 分钟 | 2 小时 |
| 并行度 | 4 worker | 8 worker | 16 worker |
| 通过条件 | 核心层 ≥ 基准线 | 全部 ≥ 准入线 + 显著性 | 趋势分析 + 漂移检测 |

### 3.4 评测结果 JSON Schema

定义标准化的评测结果格式：

```json
{
  "eval_run": {
    "id": "run_20260502_v110",
    "timestamp": "2026-05-02T14:30:00Z",
    "baseline_version": "v1.0.0",
    "target_version": "v1.1.0",
    "trigger": "prompt_change"
  },
  "scores": {
    "overall": {"mean": 3.9, "ci_low": 3.7, "ci_high": 4.1},
    "core": {"mean": 4.3, "ci_low": 4.1, "ci_high": 4.5},
    "edge": {"mean": 3.0, "ci_low": 2.6, "ci_high": 3.4},
    "adversarial": {"mean": 3.5, "ci_low": 3.0, "ci_high": 4.0}
  },
  "significance": {
    "p_value": 0.03,
    "effect_size": 0.25,
    "verdict": "significant"
  },
  "gate": {
    "gate_threshold": 3.5,
    "baseline_deviation_pct": 2.6,
    "new_failures": 1,
    "decision": "pass"
  },
  "failures": [
    {
      "case_id": "edge_dialect_012",
      "input": "你们搞咩啊，我要投诉",
      "expected": "complaint",
      "actual": "logistics",
      "stratum": "edge"
    }
  ],
  "meta": {
    "duration_seconds": 222,
    "worker_count": 8,
    "total_tokens": 45000,
    "estimated_cost_rmb": 0.12
  }
}
```

### 3.5 门禁规则配置

```yaml
gate_config:
  rules:
    - name: "准入线"
      metric: "scores.overall.mean"
      operator: ">="
      threshold: 3.5
      action: "block"
    - name: "基准线偏差"
      metric: "baseline_deviation_pct"
      operator: "<="
      threshold: 5.0
      action: "warn"
    - name: "新增失败用例"
      metric: "new_failures_count"
      operator: "<="
      threshold: 3
      action: "block"
    - name: "核心层得分"
      metric: "scores.core.mean"
      operator: ">="
      threshold: 3.8
      action: "block"
  override:
    allowed: true
    requires_approval: ["tech_lead", "pm"]
    ttl_hours: 24
```

## 第四层：反论自检

1. 如果评测集本身有**标注错误**，如何检测和修正？
2. 如果模型升级导致所有用例的输出格式变了，但**语义正确**，如何避免误判为失败？
3. 如果并行评测中某个 worker **超时或崩溃**，如何保证结果完整性？

## 第五层：输出格式

请输出：
1. 流水线架构 Mermaid 流程图
2. 分层采样配置 YAML
3. 统计显著性检验配置 YAML
4. 门禁规则配置 YAML
5. 评测结果 JSON Schema
6. CI/CD 集成步骤（适配 {{CI_PLATFORM}}）

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

回归评测流水线记录

评测集规模：___ 条用例

评测结果

版本	总分	核心场景	边缘案例	vs 基准线	新增失败
基准线	___	___	___	—	—
当前版本	___	___	___	___	___

门禁判定

规则	阈值	实际值	结果
准入线	≥ ___分	___	通过/阻断
基准线偏差	≤ ___%	___	通过/告警
新增失败用例	≤ ___ 个	___	通过/阻断

新增失败用例详情

#	用例	输入	期望输出	实际输出	原因分析
___	___	___	___	___	___

流水线运行时间： 运行人 / 日期： / ___

回归评测流水线

将 AI 返回的 Mermaid 流程图粘贴在下方。

___

查看填写示例

示例场景

【示例】回归评测流水线——智能客服意图识别

评测集规模：60 条用例

评测结果

版本	总分	核心场景	边缘案例	vs 基准线	新增失败
基准线（v1.0.0）	3.8	4.2	3.2	—	—
当前版本（v1.1.0）	3.9	4.3	3.0	+0.1	1

门禁判定

规则	阈值	实际值	结果
准入线	≥ 3.5 分	3.9	通过
基准线偏差	≤ 5%	+2.6%	通过
新增失败用例	≤ 3 个	1	通过

新增失败用例详情

#	用例	输入	期望输出	实际输出	原因分析
1	粤语-投诉混合	"你们搞咩啊，我要投诉"	complaint	logistics	粤语"搞咩"干扰分类

流水线运行时间：3 分 42 秒 运行人 / 日期：CI 自动 / 2026-05-02

回归评测流水线

flowchart TD A[代码变更触发
git push / prompt 更新] --> B[拉取评测集
60 条用例] B --> C[并行执行评测
Qwen-Turbo API] C --> D[汇总评分
按分类统计] D --> E{总分 ≥ 准入线 3.5？} E -->|否| F[阻断发布
通知开发者] E -->|是| G{偏差 ≤ 5% 且
新增失败 ≤ 3？} G -->|偏差超限| F G -->|通过| H[标记构建通过
允许合并部署] F --> I[开发者修复
重新触发流水线] I --> B

自检 Checklist

流水线是否在每次变更后自动运行？
是否有明确的阻断/告警阈值？
结果是否可追溯（历史趋势）？
运行时间是否在可接受范围内？

衍生动作

流水线就绪：进入上线期
运行太慢：考虑用子集做快速回归，全集做夜间回归

作者手记

回归评测流水线是 AI 项目质量保障的基石。传统项目的测试是"写一次跑很多次"，AI 项目的评测是"写一次、跑很多次、但基准会漂移"。要接受评测得分会有自然波动，关注趋势而不是绝对值。

← 返回构建期

触发场景

输入清单

产出记录

回归评测流水线记录

评测结果

门禁判定

新增失败用例详情

回归评测流水线

【示例】回归评测流水线——智能客服意图识别

评测结果

门禁判定

新增失败用例详情

回归评测流水线

自检 Checklist

衍生动作

作者 手记

作者手记