YYMuse
首页AI 项目交付指南 › 构建期
👔 业务负责人快览 仅需关注这 4 件事 ▾
⏱ 预估用时
4–8 周(视技术路线)
✅ 你需要做的决策
是否批准进入上线期(评测集通过率 ≥ 准入线)
👥 需要提供的资源
无需日常介入;里程碑节点参与评测结果评审
🚨 出问题时你会看到
开发说“差不多了”但没有评测分数 · 没有回退预案 · 提示词只在个人电脑上
3

构建期

Build

在输出本身就不确定的前提下,怎么推进开发?

与传统项目的关键差异

构建期最反直觉的一点是——评测不能等开发完了再做。传统项目里开发先于测试是常态,因为代码逻辑是确定的,错了能定位修复。AI 项目里"代码"本身(提示词或模型权重)在持续调整,每次调整都可能在已通过的场景上回归出错。所以评测必须从开发第一天就并行运行,且要有自动化回归。

这一阶段的另一个关键决策是技术路线:Prompt Engineering、RAG、微调、Agent 编排,每条路径的成本结构、维护负担、迭代速度都不一样。早期选错,中后期改回来代价巨大。

相关内容与 yymuse Agent 落地地图的 B 线(技术框架视角)有较多复用,可交叉参考。

核心交付物

  • 技术路线决策记录(Prompt / RAG / Fine-tune / Agent)
  • 系统架构文档(含 HITL 节点与 Observability 设计)
  • 提示词版本管理规范
  • 回归评测流水线

常见坑

  • 开发完了才开始写评测用例,无法判断回归
  • 技术路线选型仅凭技术偏好,未做成本结构分析
  • 缺少 Observability,线上问题无法溯源
  • 提示词版本散落在个人电脑,无法回滚

阶段通过条件

构建期通过条件

满足以下所有条件方可进入上线期:

  • 技术路线已锁定:Prompt / RAG / Fine-tune / Agent 路径已选定,决策记录含成本结构对比
  • 回归评测流水线运行正常:每次提示词或模型变更自动触发评测,评测集通过率 ≥ 定义期设定的准入线
  • 系统架构文档完成:含 HITL(人机协作)节点设计、Observability 埋点方案、故障降级路径
  • 提示词版本管理就绪:所有提示词纳入版本控制,每次变更关联评测结果
  • 开发环境评测基线确立:当前版本在评测集上的得分作为上线对比基线
  • 技术路线已锁定,决策记录含成本对比
  • 回归评测流水线运行,通过率 ≥ 准入线
  • 系统架构文档完成(含 HITL + Observability)
  • 提示词版本管理就绪,变更关联评测结果
  • 开发环境评测基线确立

工序包

1 技术路线决策树 2 系统架构设计(含 HITL) 3 提示词版本管理规范 4 回归评测流水线 5 构建期评审卡
技术路线决策树
选择 Prompt Engineering / RAG / 微调 / Agent 编排的正确路径
系统架构设计(含 HITL)
设计包含人机协作节点和可观测性的 AI 系统架构
提示词版本管理规范
建立提示词的版本管理、变更记录和回滚机制
回归评测流水线
搭建自动化的评测集回归,确保每次变更不破坏已有功能
构建期评审卡
阶段门禁评审工具——确认评测集通过率和架构就绪后,批准进入上线期
← 定义期
上线期 →