3. 构建期 · WorkKit
回归评测流水线
工程
搭建自动化的评测集回归,确保每次变更不破坏已有功能
触发场景
开发与评测必须从第一天起并行运行。每次提示词调整、模型升级、数据变更都需要自动运行评测集,确保不引入回归问题。
输入清单
- ◆ 评测集(完整版)
- ◆ 评分标准
- ◆ 基准线(当前版本的评测得分)
- ◆ CI/CD 环境
▶ 提示词 基础版 / 进阶版
你是一位 AI 工程效能专家。请帮我搭建回归评测流水线。
评测集信息:
- 用例数量:{{TEST_CASE_COUNT}}
- 评分方式:{{SCORING_METHOD}}
- 运行频率:每次提示词/模型变更
请设计:
1. **流水线架构**:
- 触发条件(手动/自动)
- 执行步骤
- 结果存储和对比
2. **报告格式**:
- 总分变化(vs 基准线)
- 各分类得分变化
- 新增失败用例列表
3. **门禁规则**:
- 低于准入线:阻断发布
- 低于基准线:告警但允许
- 新增失败用例超过 N 个:阻断
4. **CI/CD 集成**:如何嵌入到现有流水线
产出记录
将 AI 返回的结果填入下方模板,形成可追踪的项目文档。
回归评测流水线记录
评测集规模:___ 条用例
评测结果
| 版本 | 总分 | 核心场景 | 边缘案例 | vs 基准线 | 新增失败 |
|---|---|---|---|---|---|
| 基准线 | ___ | ___ | ___ | — | — |
| 当前版本 | ___ | ___ | ___ | ___ | ___ |
门禁判定
| 规则 | 阈值 | 实际值 | 结果 |
|---|---|---|---|
| 准入线 | ≥ ___分 | ___ | 通过/阻断 |
| 基准线偏差 | ≤ ___% | ___ | 通过/告警 |
| 新增失败用例 | ≤ ___ 个 | ___ | 通过/阻断 |
新增失败用例详情
| # | 用例 | 输入 | 期望输出 | 实际输出 | 原因分析 |
|---|---|---|---|---|---|
| ___ | ___ | ___ | ___ | ___ | ___ |
流水线运行时间: 运行人 / 日期: / ___
回归评测流水线
将 AI 返回的 Mermaid 流程图粘贴在下方。
___
查看填写示例
示例场景
【示例】回归评测流水线——智能客服意图识别
评测集规模:60 条用例
评测结果
| 版本 | 总分 | 核心场景 | 边缘案例 | vs 基准线 | 新增失败 |
|---|---|---|---|---|---|
| 基准线(v1.0.0) | 3.8 | 4.2 | 3.2 | — | — |
| 当前版本(v1.1.0) | 3.9 | 4.3 | 3.0 | +0.1 | 1 |
门禁判定
| 规则 | 阈值 | 实际值 | 结果 |
|---|---|---|---|
| 准入线 | ≥ 3.5 分 | 3.9 | 通过 |
| 基准线偏差 | ≤ 5% | +2.6% | 通过 |
| 新增失败用例 | ≤ 3 个 | 1 | 通过 |
新增失败用例详情
| # | 用例 | 输入 | 期望输出 | 实际输出 | 原因分析 |
|---|---|---|---|---|---|
| 1 | 粤语-投诉混合 | "你们搞咩啊,我要投诉" | complaint | logistics | 粤语"搞咩"干扰分类 |
流水线运行时间:3 分 42 秒 运行人 / 日期:CI 自动 / 2026-05-02
回归评测流水线
flowchart TD
A[代码变更触发
git push / prompt 更新] --> B[拉取评测集
60 条用例] B --> C[并行执行评测
Qwen-Turbo API] C --> D[汇总评分
按分类统计] D --> E{总分 ≥ 准入线 3.5?} E -->|否| F[阻断发布
通知开发者] E -->|是| G{偏差 ≤ 5% 且
新增失败 ≤ 3?} G -->|偏差超限| F G -->|通过| H[标记构建通过
允许合并部署] F --> I[开发者修复
重新触发流水线] I --> B
git push / prompt 更新] --> B[拉取评测集
60 条用例] B --> C[并行执行评测
Qwen-Turbo API] C --> D[汇总评分
按分类统计] D --> E{总分 ≥ 准入线 3.5?} E -->|否| F[阻断发布
通知开发者] E -->|是| G{偏差 ≤ 5% 且
新增失败 ≤ 3?} G -->|偏差超限| F G -->|通过| H[标记构建通过
允许合并部署] F --> I[开发者修复
重新触发流水线] I --> B
自检 Checklist
- 流水线是否在每次变更后自动运行?
- 是否有明确的阻断/告警阈值?
- 结果是否可追溯(历史趋势)?
- 运行时间是否在可接受范围内?
衍生动作
- 流水线就绪:进入上线期
- 运行太慢:考虑用子集做快速回归,全集做夜间回归
作者 手记
回归评测流水线是 AI 项目质量保障的基石。传统项目的测试是"写一次跑很多次",AI 项目的评测是"写一次、跑很多次、但基准会漂移"。要接受评测得分会有自然波动,关注趋势而不是绝对值。