2
定义期
Definition怎么把一句"做一个智能客服"翻译成开发团队和评测体系都能接住的规格?
与传统项目的关键差异
传统需求文档假设输出是确定的、可枚举的;但 AI 的输出是概率分布。如果还在写"用户问 X、系统答 Y"这样的需求,开发团队拿不到可执行目标,验收时也无法判断"答得对不对"。
定义期最重要的产出不是 PRD,而是评测集。一个写得清晰的评测集,本质上就是 AI 项目的需求规格说明书——它告诉开发团队"什么样的输出算合格"、告诉评测系统"如何打分"、告诉上线决策者"是否达到准入线"。
这一阶段还需要前置完成合规扫描和风险登记。中国境内 AI 应用的合规要求在持续演化,越早识别红线,后期返工成本越低(具体落地内容见 合规专题)。
核心交付物
- AI 问题框定文档
- 评测集(含测试用例、评分标准、基准线)
- 风险登记册(含幻觉、偏见、滥用维度)
- 合规扫描清单
常见坑
- 用传统 PRD 格式描述 AI 输出,导致验收无标准
- 把评测集推迟到开发后期才建
- 忽略合规扫描,上线前才发现红线问题
- 成功指标定义过于模糊(如"回答准确"而非具体评分标准)
阶段通过条件
定义期通过条件
满足以下所有条件方可进入构建期:
- AI 问题框定文档完成:明确输入、输出、约束条件,且开发团队确认可执行
- 评测集通过评审:至少包含 50 个测试用例,覆盖主路径和已知边缘场景,有明确的评分标准和基准线
- 风险登记册建立:幻觉、偏见、滥用三个维度均已有登记条目和初步缓解措施
- 合规扫描完成:红线问题全部有处理方案,无遗留的合规阻断项
- 成功指标可量化:如"Top-3 准确率 ≥ 85%"而非"回答准确"
- AI 问题框定文档完成,开发团队确认可执行
- 评测集通过评审(≥ 50 条用例,含评分标准)
- 风险登记册建立(幻觉、偏见、滥用维度已登记)
- 合规扫描完成,红线问题全部有处理方案
- 成功指标可量化(如"Top-3 准确率 ≥ 85%")