YYMuse

👔 业务负责人快览仅需关注这 4 件事 ▾

⏱ 预估用时

2–3 周

✅ 你需要做的决策

是否批准进入构建期（评测集是否足够完备）

👥 需要提供的资源

业务专家提供 20+ 真实输入样本 · 法务确认合规扫描结论

🚨 出问题时你会看到

开发团队说“先做了再评测” · 合规扫描推迟到上线前 · 成功指标无法量化

2

定义期

Definition

怎么把一句"做一个智能客服"翻译成开发团队和评测体系都能接住的规格？

与传统项目的关键差异

传统需求文档假设输出是确定的、可枚举的；但 AI 的输出是概率分布。如果还在写"用户问 X、系统答 Y"这样的需求，开发团队拿不到可执行目标，验收时也无法判断"答得对不对"。

定义期最重要的产出不是 PRD，而是评测集。一个写得清晰的评测集，本质上就是 AI 项目的需求规格说明书——它告诉开发团队"什么样的输出算合格"、告诉评测系统"如何打分"、告诉上线决策者"是否达到准入线"。

这一阶段还需要前置完成合规扫描和风险登记。中国境内 AI 应用的合规要求在持续演化，越早识别红线，后期返工成本越低（具体落地内容见合规专题）。

核心交付物

AI 问题框定文档
评测集（含测试用例、评分标准、基准线）
风险登记册（含幻觉、偏见、滥用维度）
合规扫描清单

常见坑

用传统 PRD 格式描述 AI 输出，导致验收无标准
把评测集推迟到开发后期才建
忽略合规扫描，上线前才发现红线问题
成功指标定义过于模糊（如"回答准确"而非具体评分标准）

阶段通过条件

定义期通过条件

满足以下所有条件方可进入构建期：

AI 问题框定文档完成：明确输入、输出、约束条件，且开发团队确认可执行
评测集通过评审：至少包含 50 个测试用例，覆盖主路径和已知边缘场景，有明确的评分标准和基准线
风险登记册建立：幻觉、偏见、滥用三个维度均已有登记条目和初步缓解措施
合规扫描完成：红线问题全部有处理方案，无遗留的合规阻断项
成功指标可量化：如"Top-3 准确率 ≥ 85%"而非"回答准确"

AI 问题框定文档完成，开发团队确认可执行
评测集通过评审（≥ 50 条用例，含评分标准）
风险登记册建立（幻觉、偏见、滥用维度已登记）
合规扫描完成，红线问题全部有处理方案
成功指标可量化（如"Top-3 准确率 ≥ 85%"）

工序包

1 AI 问题框定模板 2 评测集设计与构建 3 风险登记册 4 合规扫描清单 5 定义期评审卡

AI 问题框定模板

把模糊的"做个 AI 功能"转化为开发团队和评测体系都能接住的规格

评测集设计与构建

创建 AI 项目的需求规格说明书——评测集

风险登记册

识别和登记 AI 项目特有的风险——幻觉、偏见、滥用、数据泄露

合规扫描清单

在定义期完成合规前置扫描，避免上线前才发现红线问题

定义期评审卡

阶段门禁评审工具——确认评测集完备性和风险可控后，批准进入构建期

← 探索期

构建期 →