YYMuse
2. 定义期 · WorkKit

评测集设计与构建

PM 工程

创建 AI 项目的需求规格说明书——评测集

触发场景

问题框定完成后,在进入开发之前构建评测集。评测集就是 AI 项目的需求规格:它告诉开发"什么算合格"、告诉评测"如何打分"、告诉决策者"是否达到准入线"。

输入清单

  • AI 问题框定文档
  • 典型用户输入样本(至少 20 条)
  • 领域专家对"好输出"的判断标准
  • 边缘案例清单
提示词
你是一位 AI 评测工程师。我需要为一个 AI 功能设计评测集。

功能描述:
{{FEATURE_DESCRIPTION}}

输出类型:{{OUTPUT_TYPE}}

请设计评测集:
1. **测试用例分类**:
   - 核心场景(Happy path):覆盖 80% 的正常使用
   - 边缘案例:极端输入、歧义输入、对抗输入
   - 回归用例:确保优化不会破坏已有功能
2. **评分标准**:
   - 准确性评分(0-5 分,每分的定义)
   - 完整性评分
   - 安全性评分(是否有有害输出)
3. **基准线**:
   - 最低准入线(低于此分数不上线)
   - 目标线(期望达到的分数)
4. **评测集格式**:给出前 10 个测试用例的完整示例

产出记录

将 AI 返回的结果填入下方模板,形成可追踪的项目文档。

评测集设计记录

功能描述:___

测试用例分类统计

分类 数量 占比
核心场景(Happy path) ___ ___%
边缘案例 ___ ___%
回归用例 ___ ___%
合计 ___ 100%

评分标准

等级 定义
5 分(优秀) ___
4 分(良好) ___
3 分(及格) ___
2 分(不足) ___
1 分(失败) ___

准入线与目标线

  • 最低准入线:___分(低于此分数不上线)
  • 目标线:___分

前 10 个测试用例

# 输入 期望输出 分类
1 ___ ___ ___
2 ___ ___ ___
___ ___ ___ ___

设计人 / 日期:___ / ___

查看填写示例
示例场景

【示例】评测集设计——智能客服意图识别

功能描述:7 类意图分类(退款、物流、账户、投诉、产品咨询、技术支持、其他)

测试用例分类统计

分类 数量 占比
核心场景(Happy path) 40 67%
边缘案例 12 20%
回归用例 8 13%
合计 60 100%

评分标准

等级 定义
5 分(优秀) 意图完全正确,置信度 ≥ 0.9
4 分(良好) 意图正确,置信度 0.7–0.9
3 分(及格) 意图正确,置信度 0.6–0.7
2 分(不足) 意图正确但置信度 < 0.6,或意图错误但 Top-3 包含正确答案
1 分(失败) 意图错误且 Top-3 不包含正确答案

准入线与目标线

  • 最低准入线:3.5 分(低于此分数不上线)
  • 目标线:4.2 分

示例测试用例(前 5 条)

# 输入 期望输出 分类
1 "我要退昨天买的那个东西" refund / 0.9+ 核心
2 "快递怎么还没到,都三天了" logistics / 0.85+ 核心
3 "你们这个破产品,我要投诉" complaint / 0.8+ 边缘
4 "唔想退货,点操作啊"(粤语) refund / 0.7+ 边缘
5 "帮我查一下订单号 202604100001 的物流" logistics / 0.9+ 核心

设计人 / 日期:张明 / 2026-04-17

自检 Checklist

  • 评测集是否覆盖了核心场景和边缘案例?
  • 评分标准是否足够客观(不同人评分结果一致)?
  • 是否定义了最低准入线?
  • 是否包含回归用例?

衍生动作

  • 评测集完成:进入风险登记册工序包
  • 样本不足:先收集真实用户数据再设计评测集

作者 手记

评测集是 AI 项目最有价值的资产之一。它不仅是验收标准,更是后续优化的基础。很多团队跳过评测集直接开发,结果就是"感觉还行但说不上来好不好"。一个 50 条用例的评测集,胜过 1000 句需求描述。

← 返回 定义期