陈姐和一套还没被发明的 Agent 质量体系

陈姐的办公桌上永远放着三本书。左边是《PMBOK》,书脊裂了一道缝,第八章"质量管理"那一节翻得卷了边。中间是《六西格玛实战手册》,封面被咖啡渍洇了一块。右边是一本打印版——A4 纸打孔装订,封面手写了四个字:"LLM 评估"。
第三本书是她的英文原版打印件。原书叫《Evaluating Large Language Models》,2024 年出的,没有中文版。她买了英文电子版,一页一页打印出来,对着一本牛津词典逐段读。读不懂的地方标黄笔,读懂了但觉得翻译更好的地方标红笔,有想法的地方标蓝笔。三个月下来,这本打印版比前两本加起来还烂——每一页都有至少三种颜色的笔迹。
她知道这看起来有点偏执。但干了十五年 QA,她有一个根深蒂固的信念:你不能管理你无法衡量的事情。
陈丽华今年 42 岁,华岳精密质量管理部副部长。
2009 年进厂,从质检员做起。那时候的质检是手工活——卡尺量尺寸、塞规测公差、肉眼比表面。她干得认真,三年后升了组长,开始管质量体系。2015 年厂里上 CMM 三坐标测量仪,她带队完成了从手工检测到自动化检测的质量体系迁移——写了一整套检测标准、验收流程、不合格品处理规程。
她是那种在厂里不太显眼但所有人都会找的人。生产部找她定验收标准,采购部找她定来料检验规则,销售部找她处理客户质量投诉。她做的事不冲锋陷阵,但少了她,整条线心里不踏实。
去年秋天,她被点名加入了一个新东西——"AI 质量委员会"。
起因是厂里出了两次事故。
第一次是视觉质检 Agent(老周管的那个 V-1)在产线上放行了一批"看起来合格但实际上螺纹有轻微错牙"的零件。这批零件后来到了客户端,被对方的来料检验卡住了。追溯原因——V-1 对这类缺陷的识别率一直偏低,但之前没人注意到,因为整体识别率 97% 的平均值把这个问题淹没了。
第二次是文档处理系统的 S-4 术语映射出错,把"热处理"映射成了"热镀锌"(张师傅发现的那个)。三份技术文档出错,客户投诉。
两次事故有一个共同特征:看起来正常,其实错了。
陈姐在事故分析会上说了一句:"这种故障,在质量管理里有一个专门的名字——'隐性缺陷'。显性缺陷不可怕,因为你能看到。隐性缺陷才可怕,因为它通过了你的检测,进入了下游,你不知道它在哪里。"
郑总当天就宣布成立"AI 质量委员会",由陈姐牵头。
"效果还行"是 QA 字典里没有的词
委员会第一次开会,来了六个人——陈姐、老周、IT 部两个人、李雯、张师傅。
陈姐先问了一个问题:"现在厂里在跑的 Agent,有几个有质量评估指标?"
老周举手:"V-1 有。我建了一套基线测试和故障模式库,每次模型更新都跑回归。"——这是老周自己搞的那套,陈姐知道,之前看过,写得比大多数 IT 部的人还规范。
张师傅举手:"T-1 的主 Agent 有基本的准确率监控。但 S-1 到 S-13 没有,是我自己在维护台账里加的。"
IT 部的人互相看了一眼:"我们主要是看系统可用性——有没有宕机、响应时间是不是正常。输出质量的话……主要靠用户反馈。"
李雯说:"我那条 Agent 产线,主要看端到端处理时间和异常路由比例。输出质量还没单独量化过。"
陈姐在白板上列了一份清单:

列完之后她退后两步看了看这份清单,转身面对所有人。
"这份清单说明一件事——我们厂现在对 Agent 质量的管理,几乎全部靠个人自觉。老周自觉建了基线,张师傅自觉建了台账。如果他们不做,没有人会做。这不是质量管理体系,这是运气管理。"
会议室没人说话。
"而且,"她继续,"我参加过上个月的需求评审会。会上有三个不同的人在不同时刻说了同一句话——'这个 Agent 效果还行'。我问了三个人'还行是什么意思',三个人的回答都不一样。一个说'大部分时候没问题',一个说'比我预期的好',一个说'客户没投诉'。"
她用红笔在白板上写了一行大字:
"效果还行"不是质量标准。它是不知道怎么衡量质量时的借口。
然后加了一句她自己的口头禅:
"'差不多能用'是我们 QA 字典里没有的词。"
三层质量体系
陈姐用了两周时间,写了一份 12 页的方案。标题是《华岳精密 AI Agent 质量管理体系(草案)》。
她的思路很清楚——不从零发明,从工厂质量管理里翻译。
工厂的质量管理是三层结构:来料检验、过程检验、成品检验。她把这三层原样搬到 Agent 上:
第一层:来料检验——模型基线评估。
对应工厂里的"进料质检"——原料进厂之前先验货。Agent 的"原料"是模型本身。每次选型或更换基座模型,必须跑一套标准测试集,记录"能力边界"——哪些场景做得好、哪些做不好、不确定度分布如何。
这一层回答的问题是:这台"设备"出厂时的性能到底怎么样?
第二层:过程检验——运行时决策轨迹监控。
对应工厂里的"过程抽检"——不是等成品出来再查,是生产过程中定时抽检。Agent 的过程监控是看它的"决策轨迹"——每次请求的完整调用链、中间步骤的推理过程、置信度分布、异常触发记录。
这一层回答的问题是:运行过程中有没有"飘"?什么时候开始飘的?
第三层:成品检验——输出结果业务正确性。
对应工厂里的"成品终检"——产品出厂前的最后一道关。Agent 的成品检验是看最终输出的"业务正确性"——不是格式对不对,是结论对不对、业务逻辑通不通、有没有遗漏和冲突。
这一层回答的问题是:给到下游的东西,到底能不能用?
方案里还包括了三个配套机制:
变更回归机制——任何 Agent 的模型、prompt、参数发生变更,必须在标准测试集上重新跑一遍,回归结果不倒退才能上线。这和工厂里"工艺变更必须做首件检验"是同一套逻辑。
分级准入机制——按 Agent 的业务影响程度分三级:一级(直接影响客户交付)必须过全部三层检验,二级(影响内部流程)过两层,三级(辅助性)过一层。这和工厂的"关键特性/重要特性/一般特性"分级管控是一回事。
质量例会机制——每周一次 Agent 质量评审会,各 Agent 负责人汇报质量指标、异常事件、变更记录。这和生产线的"质量例会"是同一个格式。
第一版方案被打回来
陈姐把 12 页的方案交给郑总。
郑总看了三天。第四天叫她去办公室。
"陈姐,方案我看了。逻辑没问题,和工厂质量管理那套完全对得上。"
"但是?"
"但是太全了。你现在要求每个 Agent 都建标准测试集、跑三层检验、定分级准入——光 V-1 和 V-2 就得投入不少人力。加上 T-1 和 S-1 到 S-13,再加上后面还要上的新 Agent……"
他顿了顿。"先挑最重要的三个指标上。其他的后面再补。"
陈姐有点不甘心。她知道质量管理最怕的就是"先简后补"——先简化的版本一旦跑起来,"补"的那一天永远不会来。但她也知道郑总说的有道理——厂里现在 Agent 项目还在起步阶段,一下子搞全套,执行不下去。
她回去翻了一遍方案,划出了三个"最不能省"的指标:
- 基线准确率(来料层)——每个 Agent 上线前必须跑标准测试集,记录能力基线。
- 高置信度错误率(成品层)——Agent 自己很确定但实际搞错了的比例。这是陈姐认为最危险的指标——"比不确定性更可怕的,是虚假的确定性"。
- 变更回归率——每次变更后,在标准测试集上的表现是否倒退。倒退了就不上线。
三个指标,不嫌多不嫌少。陈姐把 12 页方案精简成了 4 页,重新交上去。标题改成了《AI Agent 质量管理基本规程(v0.1)》。
郑总看完,签了字。
一本新的活页夹
规程实施一个月后,陈姐桌上那本打印版的《LLM 评估方法》旁边,多了一本活页夹。
封面手写:《Agent 质量评估手册 v0.1》。
里面是她自己写的——每个 Agent 的基线测试结果、高置信度错误案例集、变更回归记录表。格式和她十五年来写的所有质量手册一模一样:表格、数据、判定标准、异常处理流程。
有人路过她的办公室看到这本活页夹,问:"陈姐,你这是又写了本什么?"
她头也没抬:"QA 该做的事。只不过这次的'产品'是 Agent。"
有天下午,李雯来找她。两个人每周二要开产线质量例会——产线节拍和质量评估总是一起讨论。
李雯指着活页夹里 V-2 订单处理 Agent 的评估表说:"陈姐,你这个'高置信度错误率 0.2%',我那条产线上对应的指标是什么?"
陈姐说:"就是你那条线上的'异常路由比例'。Agent 自己觉得没问题直接放行的那些,到底有多少其实是有问题的——这得靠下游抽样来验证。你现在有在做这个验证吗?"
李雯想了想:"没有。异常路由的订单我做了人工复核,但独立处理档的订单,我假设它们是对的。"
"假设是对的。"陈姐重复了一遍这句话。"你知道在质量管理里,'假设'这个词出现在哪个环节吗?"
"哪个?"
"哪个环节都不应该出现。"
李雯沉默了几秒,然后说:"行。下周开始,独立处理档的订单我也抽样。一周抽 50 单。"
陈姐点了点头。她在活页夹的 V-2 那一页加了一条备注:
4 月 18 日起,V-2 独立处理档订单增加下游抽样验证,50 单/周。李雯负责执行。
合上活页夹,她看了一眼桌上那三本书。
PMBOK 教了她质量管理的框架。六西格玛教了她量化改善的方法。第三本教了她 LLM 评估的技术手段。但真正让她把这三本书揉在一起的,不是书本身——是十五年 QA 的直觉:你不能管理你无法衡量的事情。
这句话写在活页夹的扉页上。红笔。
相关手记
郑总 55 岁,从基层干到副总。他不写代码,但要决定工厂怎么建 AI——什么时候招什么人、每月 token 烧多少钱、哪些 Agent 的 ROI 为正。前面七个工位的故事在这里汇合,他要拼出一座能算清账的工厂。
吴师傅 58 岁,精密装配的"手艺人",三次自动化都没替代的异常判断高手。技术团队找他帮贷款审批 Agent 设计人工复核节点——他们假设"AI 能做的都交给 AI",吴师傅的标准是"出错了谁负责、谁能兜住"。
小刘盯仪表盘三年。厂里 Agent 系统上线两个月没人做可观测性——他不知道哪个 Agent 每天烧多少钱、什么时候会挂。他用两周自己拼了块仪表盘,上线第一天就发现了一个没人注意到的问题。