2. 定义期 · WorkKit

评测集设计与构建

PM 工程

创建 AI 项目的需求规格说明书——评测集

触发场景

问题框定完成后，在进入开发之前构建评测集。评测集就是 AI 项目的需求规格：它告诉开发"什么算合格"、告诉评测"如何打分"、告诉决策者"是否达到准入线"。

输入清单

◆ AI 问题框定文档
◆ 典型用户输入样本（至少 20 条）
◆ 领域专家对"好输出"的判断标准
◆ 边缘案例清单

▶ 提示词

你是一位 AI 评测工程师。我需要为一个 AI 功能设计评测集。

功能描述：
{{FEATURE_DESCRIPTION}}

输出类型：{{OUTPUT_TYPE}}

请设计评测集：
1. **测试用例分类**：
   - 核心场景（Happy path）：覆盖 80% 的正常使用
   - 边缘案例：极端输入、歧义输入、对抗输入
   - 回归用例：确保优化不会破坏已有功能
2. **评分标准**：
   - 准确性评分（0-5 分，每分的定义）
   - 完整性评分
   - 安全性评分（是否有有害输出）
3. **基准线**：
   - 最低准入线（低于此分数不上线）
   - 目标线（期望达到的分数）
4. **评测集格式**：给出前 10 个测试用例的完整示例

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

评测集设计记录

功能描述：___

测试用例分类统计

分类	数量	占比
核心场景（Happy path）	___	___%
边缘案例	___	___%
回归用例	___	___%
合计	___	100%

评分标准

等级	定义
5 分（优秀）	___
4 分（良好）	___
3 分（及格）	___
2 分（不足）	___
1 分（失败）	___

准入线与目标线

最低准入线：___分（低于此分数不上线）
目标线：___分

前 10 个测试用例

#	输入	期望输出	分类
1	___	___	___
2	___	___	___
___	___	___	___

设计人 / 日期：___ / ___

查看填写示例

示例场景

【示例】评测集设计——智能客服意图识别

功能描述：7 类意图分类（退款、物流、账户、投诉、产品咨询、技术支持、其他）

测试用例分类统计

分类	数量	占比
核心场景（Happy path）	40	67%
边缘案例	12	20%
回归用例	8	13%
合计	60	100%

评分标准

等级	定义
5 分（优秀）	意图完全正确，置信度 ≥ 0.9
4 分（良好）	意图正确，置信度 0.7–0.9
3 分（及格）	意图正确，置信度 0.6–0.7
2 分（不足）	意图正确但置信度 < 0.6，或意图错误但 Top-3 包含正确答案
1 分（失败）	意图错误且 Top-3 不包含正确答案

准入线与目标线

最低准入线：3.5 分（低于此分数不上线）
目标线：4.2 分

示例测试用例（前 5 条）

#	输入	期望输出	分类
1	"我要退昨天买的那个东西"	refund / 0.9+	核心
2	"快递怎么还没到，都三天了"	logistics / 0.85+	核心
3	"你们这个破产品，我要投诉"	complaint / 0.8+	边缘
4	"唔想退货，点操作啊"（粤语）	refund / 0.7+	边缘
5	"帮我查一下订单号 202604100001 的物流"	logistics / 0.9+	核心

设计人 / 日期：张明 / 2026-04-17

自检 Checklist

评测集是否覆盖了核心场景和边缘案例？
评分标准是否足够客观（不同人评分结果一致）？
是否定义了最低准入线？
是否包含回归用例？

衍生动作

评测集完成：进入风险登记册工序包
样本不足：先收集真实用户数据再设计评测集

作者手记

评测集是 AI 项目最有价值的资产之一。它不仅是验收标准，更是后续优化的基础。很多团队跳过评测集直接开发，结果就是"感觉还行但说不上来好不好"。一个 50 条用例的评测集，胜过 1000 句需求描述。

← 返回定义期

触发场景

输入清单

产出记录

评测集设计记录

测试用例分类统计

评分标准

准入线与目标线

前 10 个测试用例

【示例】评测集设计——智能客服意图识别

测试用例分类统计

评分标准

准入线与目标线

示例测试用例（前 5 条）

自检 Checklist

衍生动作

作者 手记

作者手记