YYMuse

陈姐和一套还没被发明的 Agent 质量体系

2026-04-25 · AI Agent故事

陈姐的办公桌上永远放着三本书。左边是《PMBOK》,书脊裂了一道缝,第八章"质量管理"那一节翻得卷了边。中间是《六西格玛实战手册》,封面被咖啡渍洇了一块。右边是一本打印版——A4 纸打孔装订,封面手写了四个字:"LLM 评估"。

第三本书是她的英文原版打印件。原书叫《Evaluating Large Language Models》,2024 年出的,没有中文版。她买了英文电子版,一页一页打印出来,对着一本牛津词典逐段读。读不懂的地方标黄笔,读懂了但觉得翻译更好的地方标红笔,有想法的地方标蓝笔。三个月下来,这本打印版比前两本加起来还烂——每一页都有至少三种颜色的笔迹。

她知道这看起来有点偏执。但干了十五年 QA,她有一个根深蒂固的信念:你不能管理你无法衡量的事情。


陈丽华今年 42 岁,华岳精密质量管理部副部长。

2009 年进厂,从质检员做起。那时候的质检是手工活——卡尺量尺寸、塞规测公差、肉眼比表面。她干得认真,三年后升了组长,开始管质量体系。2015 年厂里上 CMM 三坐标测量仪,她带队完成了从手工检测到自动化检测的质量体系迁移——写了一整套检测标准、验收流程、不合格品处理规程。

她是那种在厂里不太显眼但所有人都会找的人。生产部找她定验收标准,采购部找她定来料检验规则,销售部找她处理客户质量投诉。她做的事不冲锋陷阵,但少了她,整条线心里不踏实。

去年秋天,她被点名加入了一个新东西——"AI 质量委员会"。

起因是厂里出了两次事故。

第一次是视觉质检 Agent(老周管的那个 V-1)在产线上放行了一批"看起来合格但实际上螺纹有轻微错牙"的零件。这批零件后来到了客户端,被对方的来料检验卡住了。追溯原因——V-1 对这类缺陷的识别率一直偏低,但之前没人注意到,因为整体识别率 97% 的平均值把这个问题淹没了。

第二次是文档处理系统的 S-4 术语映射出错,把"热处理"映射成了"热镀锌"(张师傅发现的那个)。三份技术文档出错,客户投诉。

两次事故有一个共同特征:看起来正常,其实错了。

陈姐在事故分析会上说了一句:"这种故障,在质量管理里有一个专门的名字——'隐性缺陷'。显性缺陷不可怕,因为你能看到。隐性缺陷才可怕,因为它通过了你的检测,进入了下游,你不知道它在哪里。"

郑总当天就宣布成立"AI 质量委员会",由陈姐牵头。


"效果还行"是 QA 字典里没有的词

委员会第一次开会,来了六个人——陈姐、老周、IT 部两个人、李雯、张师傅。

陈姐先问了一个问题:"现在厂里在跑的 Agent,有几个有质量评估指标?"

老周举手:"V-1 有。我建了一套基线测试和故障模式库,每次模型更新都跑回归。"——这是老周自己搞的那套,陈姐知道,之前看过,写得比大多数 IT 部的人还规范。

张师傅举手:"T-1 的主 Agent 有基本的准确率监控。但 S-1 到 S-13 没有,是我自己在维护台账里加的。"

IT 部的人互相看了一眼:"我们主要是看系统可用性——有没有宕机、响应时间是不是正常。输出质量的话……主要靠用户反馈。"

李雯说:"我那条 Agent 产线,主要看端到端处理时间和异常路由比例。输出质量还没单独量化过。"

陈姐在白板上列了一份清单:

列完之后她退后两步看了看这份清单,转身面对所有人。

"这份清单说明一件事——我们厂现在对 Agent 质量的管理,几乎全部靠个人自觉。老周自觉建了基线,张师傅自觉建了台账。如果他们不做,没有人会做。这不是质量管理体系,这是运气管理。"

会议室没人说话。

"而且,"她继续,"我参加过上个月的需求评审会。会上有三个不同的人在不同时刻说了同一句话——'这个 Agent 效果还行'。我问了三个人'还行是什么意思',三个人的回答都不一样。一个说'大部分时候没问题',一个说'比我预期的好',一个说'客户没投诉'。"

她用红笔在白板上写了一行大字:

"效果还行"不是质量标准。它是不知道怎么衡量质量时的借口。

然后加了一句她自己的口头禅:

"'差不多能用'是我们 QA 字典里没有的词。"


三层质量体系

陈姐用了两周时间,写了一份 12 页的方案。标题是《华岳精密 AI Agent 质量管理体系(草案)》。

她的思路很清楚——不从零发明,从工厂质量管理里翻译。

工厂的质量管理是三层结构:来料检验、过程检验、成品检验。她把这三层原样搬到 Agent 上:

第一层:来料检验——模型基线评估。

对应工厂里的"进料质检"——原料进厂之前先验货。Agent 的"原料"是模型本身。每次选型或更换基座模型,必须跑一套标准测试集,记录"能力边界"——哪些场景做得好、哪些做不好、不确定度分布如何。

这一层回答的问题是:这台"设备"出厂时的性能到底怎么样?

第二层:过程检验——运行时决策轨迹监控。

对应工厂里的"过程抽检"——不是等成品出来再查,是生产过程中定时抽检。Agent 的过程监控是看它的"决策轨迹"——每次请求的完整调用链、中间步骤的推理过程、置信度分布、异常触发记录。

这一层回答的问题是:运行过程中有没有"飘"?什么时候开始飘的?

第三层:成品检验——输出结果业务正确性。

对应工厂里的"成品终检"——产品出厂前的最后一道关。Agent 的成品检验是看最终输出的"业务正确性"——不是格式对不对,是结论对不对、业务逻辑通不通、有没有遗漏和冲突。

这一层回答的问题是:给到下游的东西,到底能不能用?


方案里还包括了三个配套机制:

变更回归机制——任何 Agent 的模型、prompt、参数发生变更,必须在标准测试集上重新跑一遍,回归结果不倒退才能上线。这和工厂里"工艺变更必须做首件检验"是同一套逻辑。

分级准入机制——按 Agent 的业务影响程度分三级:一级(直接影响客户交付)必须过全部三层检验,二级(影响内部流程)过两层,三级(辅助性)过一层。这和工厂的"关键特性/重要特性/一般特性"分级管控是一回事。

质量例会机制——每周一次 Agent 质量评审会,各 Agent 负责人汇报质量指标、异常事件、变更记录。这和生产线的"质量例会"是同一个格式。


第一版方案被打回来

陈姐把 12 页的方案交给郑总。

郑总看了三天。第四天叫她去办公室。

"陈姐,方案我看了。逻辑没问题,和工厂质量管理那套完全对得上。"

"但是?"

"但是太全了。你现在要求每个 Agent 都建标准测试集、跑三层检验、定分级准入——光 V-1 和 V-2 就得投入不少人力。加上 T-1 和 S-1 到 S-13,再加上后面还要上的新 Agent……"

他顿了顿。"先挑最重要的三个指标上。其他的后面再补。"

陈姐有点不甘心。她知道质量管理最怕的就是"先简后补"——先简化的版本一旦跑起来,"补"的那一天永远不会来。但她也知道郑总说的有道理——厂里现在 Agent 项目还在起步阶段,一下子搞全套,执行不下去。

她回去翻了一遍方案,划出了三个"最不能省"的指标:

  1. 基线准确率(来料层)——每个 Agent 上线前必须跑标准测试集,记录能力基线。
  2. 高置信度错误率(成品层)——Agent 自己很确定但实际搞错了的比例。这是陈姐认为最危险的指标——"比不确定性更可怕的,是虚假的确定性"。
  3. 变更回归率——每次变更后,在标准测试集上的表现是否倒退。倒退了就不上线。

三个指标,不嫌多不嫌少。陈姐把 12 页方案精简成了 4 页,重新交上去。标题改成了《AI Agent 质量管理基本规程(v0.1)》。

郑总看完,签了字。


一本新的活页夹

规程实施一个月后,陈姐桌上那本打印版的《LLM 评估方法》旁边,多了一本活页夹。

封面手写:《Agent 质量评估手册 v0.1》。

里面是她自己写的——每个 Agent 的基线测试结果、高置信度错误案例集、变更回归记录表。格式和她十五年来写的所有质量手册一模一样:表格、数据、判定标准、异常处理流程。

有人路过她的办公室看到这本活页夹,问:"陈姐,你这是又写了本什么?"

她头也没抬:"QA 该做的事。只不过这次的'产品'是 Agent。"


有天下午,李雯来找她。两个人每周二要开产线质量例会——产线节拍和质量评估总是一起讨论。

李雯指着活页夹里 V-2 订单处理 Agent 的评估表说:"陈姐,你这个'高置信度错误率 0.2%',我那条产线上对应的指标是什么?"

陈姐说:"就是你那条线上的'异常路由比例'。Agent 自己觉得没问题直接放行的那些,到底有多少其实是有问题的——这得靠下游抽样来验证。你现在有在做这个验证吗?"

李雯想了想:"没有。异常路由的订单我做了人工复核,但独立处理档的订单,我假设它们是对的。"

"假设是对的。"陈姐重复了一遍这句话。"你知道在质量管理里,'假设'这个词出现在哪个环节吗?"

"哪个?"

"哪个环节都不应该出现。"

李雯沉默了几秒,然后说:"行。下周开始,独立处理档的订单我也抽样。一周抽 50 单。"

陈姐点了点头。她在活页夹的 V-2 那一页加了一条备注:

4 月 18 日起,V-2 独立处理档订单增加下游抽样验证,50 单/周。李雯负责执行。

合上活页夹,她看了一眼桌上那三本书。

PMBOK 教了她质量管理的框架。六西格玛教了她量化改善的方法。第三本教了她 LLM 评估的技术手段。但真正让她把这三本书揉在一起的,不是书本身——是十五年 QA 的直觉:你不能管理你无法衡量的事情。

这句话写在活页夹的扉页上。红笔。

优缪思 微信公众号二维码
微信扫码关注订阅号 · 优缪思,获取 PM / AI 精选内容