YYMuse
3. 构建期 · WorkKit

回归评测流水线

工程

搭建自动化的评测集回归,确保每次变更不破坏已有功能

触发场景

开发与评测必须从第一天起并行运行。每次提示词调整、模型升级、数据变更都需要自动运行评测集,确保不引入回归问题。

输入清单

  • 评测集(完整版)
  • 评分标准
  • 基准线(当前版本的评测得分)
  • CI/CD 环境
提示词 基础版 / 进阶版
你是一位 AI 工程效能专家。请帮我搭建回归评测流水线。

评测集信息:
- 用例数量:{{TEST_CASE_COUNT}}
- 评分方式:{{SCORING_METHOD}}
- 运行频率:每次提示词/模型变更

请设计:
1. **流水线架构**:
   - 触发条件(手动/自动)
   - 执行步骤
   - 结果存储和对比
2. **报告格式**:
   - 总分变化(vs 基准线)
   - 各分类得分变化
   - 新增失败用例列表
3. **门禁规则**:
   - 低于准入线:阻断发布
   - 低于基准线:告警但允许
   - 新增失败用例超过 N 个:阻断
4. **CI/CD 集成**:如何嵌入到现有流水线

产出记录

将 AI 返回的结果填入下方模板,形成可追踪的项目文档。

回归评测流水线记录

评测集规模:___ 条用例

评测结果

版本 总分 核心场景 边缘案例 vs 基准线 新增失败
基准线 ___ ___ ___
当前版本 ___ ___ ___ ___ ___

门禁判定

规则 阈值 实际值 结果
准入线 ≥ ___分 ___ 通过/阻断
基准线偏差 ≤ ___% ___ 通过/告警
新增失败用例 ≤ ___ 个 ___ 通过/阻断

新增失败用例详情

# 用例 输入 期望输出 实际输出 原因分析
___ ___ ___ ___ ___ ___

流水线运行时间 运行人 / 日期 / ___

回归评测流水线

将 AI 返回的 Mermaid 流程图粘贴在下方。

___
查看填写示例
示例场景

【示例】回归评测流水线——智能客服意图识别

评测集规模:60 条用例

评测结果

版本 总分 核心场景 边缘案例 vs 基准线 新增失败
基准线(v1.0.0) 3.8 4.2 3.2
当前版本(v1.1.0) 3.9 4.3 3.0 +0.1 1

门禁判定

规则 阈值 实际值 结果
准入线 ≥ 3.5 分 3.9 通过
基准线偏差 ≤ 5% +2.6% 通过
新增失败用例 ≤ 3 个 1 通过

新增失败用例详情

# 用例 输入 期望输出 实际输出 原因分析
1 粤语-投诉混合 "你们搞咩啊,我要投诉" complaint logistics 粤语"搞咩"干扰分类

流水线运行时间:3 分 42 秒 运行人 / 日期:CI 自动 / 2026-05-02

回归评测流水线

flowchart TD A[代码变更触发
git push / prompt 更新] --> B[拉取评测集
60 条用例] B --> C[并行执行评测
Qwen-Turbo API] C --> D[汇总评分
按分类统计] D --> E{总分 ≥ 准入线 3.5?} E -->|否| F[阻断发布
通知开发者] E -->|是| G{偏差 ≤ 5% 且
新增失败 ≤ 3?} G -->|偏差超限| F G -->|通过| H[标记构建通过
允许合并部署] F --> I[开发者修复
重新触发流水线] I --> B

自检 Checklist

  • 流水线是否在每次变更后自动运行?
  • 是否有明确的阻断/告警阈值?
  • 结果是否可追溯(历史趋势)?
  • 运行时间是否在可接受范围内?

衍生动作

  • 流水线就绪:进入上线期
  • 运行太慢:考虑用子集做快速回归,全集做夜间回归

作者 手记

回归评测流水线是 AI 项目质量保障的基石。传统项目的测试是"写一次跑很多次",AI 项目的评测是"写一次、跑很多次、但基准会漂移"。要接受评测得分会有自然波动,关注趋势而不是绝对值。

← 返回 构建期