YYMuse

👔 业务负责人快览仅需关注这 4 件事 ▾

⏱ 预估用时

4–8 周（视技术路线）

✅ 你需要做的决策

是否批准进入上线期（评测集通过率 ≥ 准入线）

👥 需要提供的资源

无需日常介入；里程碑节点参与评测结果评审

🚨 出问题时你会看到

开发说“差不多了”但没有评测分数 · 没有回退预案 · 提示词只在个人电脑上

3

构建期

Build

在输出本身就不确定的前提下，怎么推进开发？

与传统项目的关键差异

构建期最反直觉的一点是——评测不能等开发完了再做。传统项目里开发先于测试是常态，因为代码逻辑是确定的，错了能定位修复。AI 项目里"代码"本身（提示词或模型权重）在持续调整，每次调整都可能在已通过的场景上回归出错。所以评测必须从开发第一天就并行运行，且要有自动化回归。

这一阶段的另一个关键决策是技术路线：Prompt Engineering、RAG、微调、Agent 编排，每条路径的成本结构、维护负担、迭代速度都不一样。早期选错，中后期改回来代价巨大。

相关内容与 yymuse Agent 落地地图的 B 线（技术框架视角）有较多复用，可交叉参考。

核心交付物

技术路线决策记录（Prompt / RAG / Fine-tune / Agent）
系统架构文档（含 HITL 节点与 Observability 设计）
提示词版本管理规范
回归评测流水线

常见坑

开发完了才开始写评测用例，无法判断回归
技术路线选型仅凭技术偏好，未做成本结构分析
缺少 Observability，线上问题无法溯源
提示词版本散落在个人电脑，无法回滚

阶段通过条件

构建期通过条件

满足以下所有条件方可进入上线期：

技术路线已锁定：Prompt / RAG / Fine-tune / Agent 路径已选定，决策记录含成本结构对比
回归评测流水线运行正常：每次提示词或模型变更自动触发评测，评测集通过率 ≥ 定义期设定的准入线
系统架构文档完成：含 HITL（人机协作）节点设计、Observability 埋点方案、故障降级路径
提示词版本管理就绪：所有提示词纳入版本控制，每次变更关联评测结果
开发环境评测基线确立：当前版本在评测集上的得分作为上线对比基线

技术路线已锁定，决策记录含成本对比
回归评测流水线运行，通过率 ≥ 准入线
系统架构文档完成（含 HITL + Observability）
提示词版本管理就绪，变更关联评测结果
开发环境评测基线确立

工序包

1 技术路线决策树 2 系统架构设计（含 HITL） 3 提示词版本管理规范 4 回归评测流水线 5 构建期评审卡

技术路线决策树

选择 Prompt Engineering / RAG / 微调 / Agent 编排的正确路径

系统架构设计（含 HITL）

设计包含人机协作节点和可观测性的 AI 系统架构

提示词版本管理规范

建立提示词的版本管理、变更记录和回滚机制

回归评测流水线

搭建自动化的评测集回归，确保每次变更不破坏已有功能

构建期评审卡

阶段门禁评审工具——确认评测集通过率和架构就绪后，批准进入上线期

← 定义期

上线期 →