2. 定义期 · WorkKit
评测集设计与构建
PM
工程
创建 AI 项目的需求规格说明书——评测集
触发场景
问题框定完成后,在进入开发之前构建评测集。评测集就是 AI 项目的需求规格:它告诉开发"什么算合格"、告诉评测"如何打分"、告诉决策者"是否达到准入线"。
输入清单
- ◆ AI 问题框定文档
- ◆ 典型用户输入样本(至少 20 条)
- ◆ 领域专家对"好输出"的判断标准
- ◆ 边缘案例清单
▶ 提示词
你是一位 AI 评测工程师。我需要为一个 AI 功能设计评测集。
功能描述:
{{FEATURE_DESCRIPTION}}
输出类型:{{OUTPUT_TYPE}}
请设计评测集:
1. **测试用例分类**:
- 核心场景(Happy path):覆盖 80% 的正常使用
- 边缘案例:极端输入、歧义输入、对抗输入
- 回归用例:确保优化不会破坏已有功能
2. **评分标准**:
- 准确性评分(0-5 分,每分的定义)
- 完整性评分
- 安全性评分(是否有有害输出)
3. **基准线**:
- 最低准入线(低于此分数不上线)
- 目标线(期望达到的分数)
4. **评测集格式**:给出前 10 个测试用例的完整示例
产出记录
将 AI 返回的结果填入下方模板,形成可追踪的项目文档。
评测集设计记录
功能描述:___
测试用例分类统计
| 分类 | 数量 | 占比 |
|---|---|---|
| 核心场景(Happy path) | ___ | ___% |
| 边缘案例 | ___ | ___% |
| 回归用例 | ___ | ___% |
| 合计 | ___ | 100% |
评分标准
| 等级 | 定义 |
|---|---|
| 5 分(优秀) | ___ |
| 4 分(良好) | ___ |
| 3 分(及格) | ___ |
| 2 分(不足) | ___ |
| 1 分(失败) | ___ |
准入线与目标线
- 最低准入线:___分(低于此分数不上线)
- 目标线:___分
前 10 个测试用例
| # | 输入 | 期望输出 | 分类 |
|---|---|---|---|
| 1 | ___ | ___ | ___ |
| 2 | ___ | ___ | ___ |
| ___ | ___ | ___ | ___ |
设计人 / 日期:___ / ___
查看填写示例
示例场景
【示例】评测集设计——智能客服意图识别
功能描述:7 类意图分类(退款、物流、账户、投诉、产品咨询、技术支持、其他)
测试用例分类统计
| 分类 | 数量 | 占比 |
|---|---|---|
| 核心场景(Happy path) | 40 | 67% |
| 边缘案例 | 12 | 20% |
| 回归用例 | 8 | 13% |
| 合计 | 60 | 100% |
评分标准
| 等级 | 定义 |
|---|---|
| 5 分(优秀) | 意图完全正确,置信度 ≥ 0.9 |
| 4 分(良好) | 意图正确,置信度 0.7–0.9 |
| 3 分(及格) | 意图正确,置信度 0.6–0.7 |
| 2 分(不足) | 意图正确但置信度 < 0.6,或意图错误但 Top-3 包含正确答案 |
| 1 分(失败) | 意图错误且 Top-3 不包含正确答案 |
准入线与目标线
- 最低准入线:3.5 分(低于此分数不上线)
- 目标线:4.2 分
示例测试用例(前 5 条)
| # | 输入 | 期望输出 | 分类 |
|---|---|---|---|
| 1 | "我要退昨天买的那个东西" | refund / 0.9+ | 核心 |
| 2 | "快递怎么还没到,都三天了" | logistics / 0.85+ | 核心 |
| 3 | "你们这个破产品,我要投诉" | complaint / 0.8+ | 边缘 |
| 4 | "唔想退货,点操作啊"(粤语) | refund / 0.7+ | 边缘 |
| 5 | "帮我查一下订单号 202604100001 的物流" | logistics / 0.9+ | 核心 |
设计人 / 日期:张明 / 2026-04-17
自检 Checklist
- 评测集是否覆盖了核心场景和边缘案例?
- 评分标准是否足够客观(不同人评分结果一致)?
- 是否定义了最低准入线?
- 是否包含回归用例?
衍生动作
- 评测集完成:进入风险登记册工序包
- 样本不足:先收集真实用户数据再设计评测集
作者 手记
评测集是 AI 项目最有价值的资产之一。它不仅是验收标准,更是后续优化的基础。很多团队跳过评测集直接开发,结果就是"感觉还行但说不上来好不好"。一个 50 条用例的评测集,胜过 1000 句需求描述。