陈姐和一套还没被发明的 Agent 质量体系

陈姐的办公桌上永远放着三本书。左边是《PMBOK》，书脊裂了一道缝，第八章"质量管理"那一节翻得卷了边。中间是《六西格玛实战手册》，封面被咖啡渍洇了一块。右边是一本打印版——A4 纸打孔装订，封面手写了四个字："LLM 评估"。

第三本书是她的英文原版打印件。原书叫《Evaluating Large Language Models》，2024 年出的，没有中文版。她买了英文电子版，一页一页打印出来，对着一本牛津词典逐段读。读不懂的地方标黄笔，读懂了但觉得翻译更好的地方标红笔，有想法的地方标蓝笔。三个月下来，这本打印版比前两本加起来还烂——每一页都有至少三种颜色的笔迹。

她知道这看起来有点偏执。但干了十五年 QA，她有一个根深蒂固的信念：你不能管理你无法衡量的事情。

陈丽华今年 42 岁，华岳精密质量管理部副部长。

2009 年进厂，从质检员做起。那时候的质检是手工活——卡尺量尺寸、塞规测公差、肉眼比表面。她干得认真，三年后升了组长，开始管质量体系。2015 年厂里上 CMM 三坐标测量仪，她带队完成了从手工检测到自动化检测的质量体系迁移——写了一整套检测标准、验收流程、不合格品处理规程。

她是那种在厂里不太显眼但所有人都会找的人。生产部找她定验收标准，采购部找她定来料检验规则，销售部找她处理客户质量投诉。她做的事不冲锋陷阵，但少了她，整条线心里不踏实。

去年秋天，她被点名加入了一个新东西——"AI 质量委员会"。

起因是厂里出了两次事故。

第一次是视觉质检 Agent（老周管的那个 V-1）在产线上放行了一批"看起来合格但实际上螺纹有轻微错牙"的零件。这批零件后来到了客户端，被对方的来料检验卡住了。追溯原因——V-1 对这类缺陷的识别率一直偏低，但之前没人注意到，因为整体识别率 97% 的平均值把这个问题淹没了。

第二次是文档处理系统的 S-4 术语映射出错，把"热处理"映射成了"热镀锌"（张师傅发现的那个）。三份技术文档出错，客户投诉。

两次事故有一个共同特征：看起来正常，其实错了。

陈姐在事故分析会上说了一句："这种故障，在质量管理里有一个专门的名字——'隐性缺陷'。显性缺陷不可怕，因为你能看到。隐性缺陷才可怕，因为它通过了你的检测，进入了下游，你不知道它在哪里。"

郑总当天就宣布成立"AI 质量委员会"，由陈姐牵头。

"效果还行"是 QA 字典里没有的词

委员会第一次开会，来了六个人——陈姐、老周、IT 部两个人、李雯、张师傅。

陈姐先问了一个问题："现在厂里在跑的 Agent，有几个有质量评估指标？"

老周举手："V-1 有。我建了一套基线测试和故障模式库，每次模型更新都跑回归。"——这是老周自己搞的那套，陈姐知道，之前看过，写得比大多数 IT 部的人还规范。

张师傅举手："T-1 的主 Agent 有基本的准确率监控。但 S-1 到 S-13 没有，是我自己在维护台账里加的。"

IT 部的人互相看了一眼："我们主要是看系统可用性——有没有宕机、响应时间是不是正常。输出质量的话……主要靠用户反馈。"

李雯说："我那条 Agent 产线，主要看端到端处理时间和异常路由比例。输出质量还没单独量化过。"

陈姐在白板上列了一份清单：

列完之后她退后两步看了看这份清单，转身面对所有人。

"这份清单说明一件事——我们厂现在对 Agent 质量的管理，几乎全部靠个人自觉。老周自觉建了基线，张师傅自觉建了台账。如果他们不做，没有人会做。这不是质量管理体系，这是运气管理。"

会议室没人说话。

"而且，"她继续，"我参加过上个月的需求评审会。会上有三个不同的人在不同时刻说了同一句话——'这个 Agent 效果还行'。我问了三个人'还行是什么意思'，三个人的回答都不一样。一个说'大部分时候没问题'，一个说'比我预期的好'，一个说'客户没投诉'。"

她用红笔在白板上写了一行大字：

"效果还行"不是质量标准。它是不知道怎么衡量质量时的借口。

然后加了一句她自己的口头禅：

"'差不多能用'是我们 QA 字典里没有的词。"

三层质量体系

陈姐用了两周时间，写了一份 12 页的方案。标题是《华岳精密 AI Agent 质量管理体系（草案）》。

她的思路很清楚——不从零发明，从工厂质量管理里翻译。

工厂的质量管理是三层结构：来料检验、过程检验、成品检验。她把这三层原样搬到 Agent 上：

第一层：来料检验——模型基线评估。

对应工厂里的"进料质检"——原料进厂之前先验货。Agent 的"原料"是模型本身。每次选型或更换基座模型，必须跑一套标准测试集，记录"能力边界"——哪些场景做得好、哪些做不好、不确定度分布如何。

这一层回答的问题是：这台"设备"出厂时的性能到底怎么样？

第二层：过程检验——运行时决策轨迹监控。

对应工厂里的"过程抽检"——不是等成品出来再查，是生产过程中定时抽检。Agent 的过程监控是看它的"决策轨迹"——每次请求的完整调用链、中间步骤的推理过程、置信度分布、异常触发记录。

这一层回答的问题是：运行过程中有没有"飘"？什么时候开始飘的？

第三层：成品检验——输出结果业务正确性。

对应工厂里的"成品终检"——产品出厂前的最后一道关。Agent 的成品检验是看最终输出的"业务正确性"——不是格式对不对，是结论对不对、业务逻辑通不通、有没有遗漏和冲突。

这一层回答的问题是：给到下游的东西，到底能不能用？

方案里还包括了三个配套机制：

变更回归机制——任何 Agent 的模型、prompt、参数发生变更，必须在标准测试集上重新跑一遍，回归结果不倒退才能上线。这和工厂里"工艺变更必须做首件检验"是同一套逻辑。

分级准入机制——按 Agent 的业务影响程度分三级：一级（直接影响客户交付）必须过全部三层检验，二级（影响内部流程）过两层，三级（辅助性）过一层。这和工厂的"关键特性/重要特性/一般特性"分级管控是一回事。

质量例会机制——每周一次 Agent 质量评审会，各 Agent 负责人汇报质量指标、异常事件、变更记录。这和生产线的"质量例会"是同一个格式。

第一版方案被打回来

陈姐把 12 页的方案交给郑总。

郑总看了三天。第四天叫她去办公室。

"陈姐，方案我看了。逻辑没问题，和工厂质量管理那套完全对得上。"

"但是？"

"但是太全了。你现在要求每个 Agent 都建标准测试集、跑三层检验、定分级准入——光 V-1 和 V-2 就得投入不少人力。加上 T-1 和 S-1 到 S-13，再加上后面还要上的新 Agent……"

他顿了顿。"先挑最重要的三个指标上。其他的后面再补。"

陈姐有点不甘心。她知道质量管理最怕的就是"先简后补"——先简化的版本一旦跑起来，"补"的那一天永远不会来。但她也知道郑总说的有道理——厂里现在 Agent 项目还在起步阶段，一下子搞全套，执行不下去。

她回去翻了一遍方案，划出了三个"最不能省"的指标：

基线准确率（来料层）——每个 Agent 上线前必须跑标准测试集，记录能力基线。
高置信度错误率（成品层）——Agent 自己很确定但实际搞错了的比例。这是陈姐认为最危险的指标——"比不确定性更可怕的，是虚假的确定性"。
变更回归率——每次变更后，在标准测试集上的表现是否倒退。倒退了就不上线。

三个指标，不嫌多不嫌少。陈姐把 12 页方案精简成了 4 页，重新交上去。标题改成了《AI Agent 质量管理基本规程（v0.1）》。

郑总看完，签了字。

一本新的活页夹

规程实施一个月后，陈姐桌上那本打印版的《LLM 评估方法》旁边，多了一本活页夹。

封面手写：《Agent 质量评估手册 v0.1》。

里面是她自己写的——每个 Agent 的基线测试结果、高置信度错误案例集、变更回归记录表。格式和她十五年来写的所有质量手册一模一样：表格、数据、判定标准、异常处理流程。

有人路过她的办公室看到这本活页夹，问："陈姐，你这是又写了本什么？"

她头也没抬："QA 该做的事。只不过这次的'产品'是 Agent。"

有天下午，李雯来找她。两个人每周二要开产线质量例会——产线节拍和质量评估总是一起讨论。

李雯指着活页夹里 V-2 订单处理 Agent 的评估表说："陈姐，你这个'高置信度错误率 0.2%'，我那条产线上对应的指标是什么？"

陈姐说："就是你那条线上的'异常路由比例'。Agent 自己觉得没问题直接放行的那些，到底有多少其实是有问题的——这得靠下游抽样来验证。你现在有在做这个验证吗？"

李雯想了想："没有。异常路由的订单我做了人工复核，但独立处理档的订单，我假设它们是对的。"

"假设是对的。"陈姐重复了一遍这句话。"你知道在质量管理里，'假设'这个词出现在哪个环节吗？"

"哪个？"

"哪个环节都不应该出现。"

李雯沉默了几秒，然后说："行。下周开始，独立处理档的订单我也抽样。一周抽 50 单。"

陈姐点了点头。她在活页夹的 V-2 那一页加了一条备注：

4 月 18 日起，V-2 独立处理档订单增加下游抽样验证，50 单/周。李雯负责执行。

合上活页夹，她看了一眼桌上那三本书。

PMBOK 教了她质量管理的框架。六西格玛教了她量化改善的方法。第三本教了她 LLM 评估的技术手段。但真正让她把这三本书揉在一起的，不是书本身——是十五年 QA 的直觉：你不能管理你无法衡量的事情。

这句话写在活页夹的扉页上。红笔。

"效果还行"是 QA 字典里没有的词

三层质量体系

第一版方案被打回来

一本新的活页夹

相关手记