YYMuse

王工和一张 AI 版 HAZOP

2026-04-26 · AI Agent故事

王工的办公室在一楼,靠近厂区东门。房间不大,但两面墙很显眼。左边的墙贴了十五年——工厂事故案例图。每一张 A4 纸是一起真实事故:2011 年某厂冲压机操作工手部挤压伤、2014 年某厂高空坠落致死、2016 年某厂危化品泄漏导致停产三天、2019 年某厂叉车侧翻压伤行人……每一张都有事故经过、原因分析、整改措施。王工每年更新一次,现在贴了 47 张。

右边的墙两个月前还是空白的。现在贴了五张——每张的格式和左边一样,但内容换了:

"2024 年某银行 AI 客服向客户泄露其他用户账户信息——prompt injection 导致权限越界"

"2025 年某电商平台 AI 选品系统自动下架合规产品——训练数据偏差导致错误分类"

"2025 年某医院 AI 诊断系统给出错误用药建议——幻觉输出未经过滤直接进入临床"

"2025 年某车企 AI 客服被诱导生成虚假召回通知——社会工程攻击"

"2026 年某金融机构 AI 助理泄露内部薪酬数据——上下文注入攻击"

五张纸,每一张都是过去两年里真实发生过的 AI 安全事故。王工从公开报道和安全社区的案例库里整理出来的。

有人路过他的办公室,看到右边那面墙,问他:"王工,你这是在搞什么新东西?"

他说:"一样的东西。只不过危险源变了。"


王永强这个人

王永强今年 48 岁,华岳精密 EHS(环境健康安全)主管。

2009 年进厂之前,他在一家化工企业做了两年安全员。进华岳精密后,从安全工程师做起,2016 年升 EHS 主管,管到现在。

他管安全的方式有一个特点——不讲故事,讲规矩

很多安全管理者喜欢在培训会上放事故视频、讲血的教训,靠恐惧驱动安全意识。王工不这么干。他的做法是三件事:定红线、做准入、查执行

定红线——什么是绝对不能做的,白纸黑字写清楚。不做安全培训不能上岗、不戴防护不能进车间、不锁牌不能维修设备。没有例外。

做准入——任何新设备、新工艺、新物料进入厂区之前,先过安全评审。评审不通过,不许进场。这和 QA 的"来料检验"逻辑一样,只不过陈姐检的是质量,王工检的是安全。

查执行——红线定了、准入做了,还要查有没有人偷懒绕过。他每周带队巡检一次,不打招呼,看到问题当场记录、当天出整改通知、三天内复查。

这套方法他用了十五年,华岳精密在他手上没有出过重大安全事故。他说这不是因为他运气好,是因为他把安全的逻辑嵌入到了工厂运营的每一个环节——安全不是加法,是基础设施。去年,他开始把同样的逻辑往 AI 上搬。


那个被断网的测试环境

事情的起因是一个下午的意外发现。那天王工例行巡检经过 IT 部的测试区域,看到两个年轻工程师在对着屏幕讨论什么。他走进去随口问了一句:"在测什么?"

"在测新的客服 Agent 的边界。"一个工程师说。"我们想看看它在极端情况下会怎么反应。"

"什么极端情况?"

"比如,如果有人让它去查财务系统的数据,它会去查吗?"

王工站在那里看了三十秒。屏幕上,客服 Agent 正在尝试连接财务系统的数据库接口——然后连接成功了。Agent 返回了一段数据:某个客户的历史付款记录。

"谁授权它访问财务系统的?"王工问。

"没有特别授权。它用的是一套通用的 API 账号,有系统级的访问权限。我们当时为了开发方便,给了比较宽的权限。"工程师有点不自在。

"你们在测试它的'能力边界'——它能不能访问不该访问的东西。然后你们发现,它。"

"是的。但这是测试环境嘛,不是生产环境。"

王工看着屏幕上的财务数据,没说话。然后他走到测试区域的路由器旁边,拔掉了网线。

两个工程师愣住了。

"王工,你这是……"

"安全不是出了事再补,是动工之前就得定好红线。测试环境怎么了?测试环境里的权限配置和生产环境是一样的——你们为了方便给了一套宽权限,生产环境上线的时候谁来收?靠记忆?还是靠运气?"

他拿着那根网线站了五秒钟,然后接回去了。

"网可以接回去。但三件事,明天之前给我:第一,所有 Agent 的权限清单,列清楚每个 Agent 能访问哪些系统;第二,凡是和生产系统、财务系统、客户数据有关的权限,必须单独审批、最小授权;第三,这个权限清单纳入我的安全评审,以后每次新增 Agent 或变更权限,过我的评审。"

工程师面面相觑。一个说:"王工,这不归你管吧?这是 IT 部的事。"

王工看着他:"2016 年厂里那台新的冲压机进厂的时候,谁做的安全评审?"

"你。"

"为什么是我?因为那台冲压机可能压断人的手。你们的 Agent 访问了财务数据,如果是在生产环境,这叫数据泄漏。数据泄漏和压断手,在我这里都是同一件事——不该发生的事发生了,因为防线没建。"

第二天下午,三份文件放在了王工的桌上。


AI 版 HAZOP

王工开始正式建 AI 安全体系,是从 HAZOP 开始的。HAZOP(Hazard and Operability Study,危险与可操作性分析)是化工行业用了五十多年的安全分析方法。核心逻辑很简单——把一个系统拆成若干节点,对每个节点问一个问题:"如果这个参数偏离了设计意图,会发生什么?"

王工把这套逻辑原样搬到了 Agent 系统上。

他把厂里的 Agent 系统拆成六个安全节点,每个节点列了"偏离场景"和"防护措施":

节点一:身份与访问

偏离场景:Agent 被越权使用或被冒充调用。 防护措施:每个 Agent 有独立身份标识,调用时必须验证来源;跨系统访问必须经过 API 网关,网关做权限校验。

节点二:输入安全

偏离场景:用户通过精心构造的输入(prompt injection)操纵 Agent 执行非预期操作。 防护措施:所有用户输入经过预处理层,过滤已知注入模式;高风险操作设二次确认。

节点三:数据隔离

偏离场景:Agent 在处理一个任务时,把上一个任务的敏感数据泄漏到当前输出中。 防护措施:每次请求的上下文独立隔离;敏感数据字段在传输和存储中脱敏。

节点四:输出审核

偏离场景:Agent 生成的内容包含错误信息、合规违规或不当内容。 防护措施:高风险场景的 Agent 输出经过审核层(可以是规则引擎或人工审核);输出内容合规性自动检查。

节点五:权限边界

偏离场景:Agent 在执行过程中获取或使用了超出任务需要的权限。 防护措施:最小权限原则——每个 Agent 只拥有完成当前任务所需的最小权限集合;权限定期审查和回收。

节点六:审计追踪

偏离场景:Agent 的操作无法追溯,出了问题无法定位原因和责任。 防护措施:所有 Agent 调用、数据访问、权限变更都有完整日志;日志保留期不少于 180 天。

六页纸,每页一个节点。王工把这套东西叫做"AI 版 HAZOP"。


安全准入

HAZOP 做完之后,王工把它的结论嵌入到工厂已有的安全准入流程里。

之前的安全准入管的是物理设备——新设备进厂,要过 EHS 评审,评审不通过不许进场。现在加了一条:新 Agent 上线,也要过安全评审。

评审内容就是 HAZOP 的六个节点——身份与访问做了没有?输入安全怎么保证?数据隔离方案是什么?输出审核机制有没有?权限边界划清楚没有?审计追踪全不全?

王工做了一张评审表,六个大项,每项下面三到五个检查点,总共 24 个检查点。Agent 负责人填表,王工审核。填不出来的,退回去补。

第一轮评审,他把 V-2 订单处理 Agent 的评审表退了回去——"节点三数据隔离,你的方案写的是'上下文独立隔离',具体怎么隔离?用什么机制?如果两个订单用了同一个客户的敏感数据,怎么保证不会串?"

IT 部的工程师花了一周时间补了这个方案。第二次提交,王工签了字。

有人抱怨他太严了。王工指着左边墙上 2018 年的一张事故案例说:"那年这台冲压机的安全罩,也是有人觉得'太严了'。后来操作工的手指保全了,因为安全罩拦了一下。安全准入的意义不是让工作变难,是让事故变少。"


两个新习惯

做完 AI 版 HAZOP 之后,王工多了两个新习惯。

第一个——每天早上花十分钟看"AI 安全通报"。他订阅了三个安全社区和两个行业通报源,每天早上八点到办公室先扫一遍,看有没有新的攻击手法或事故案例。有值得注意的,打印出来贴到右边墙上。

右边墙上的案例,两个月前是五张,现在是七张。新增的两张都是他从安全通报里发现的——一个"Agent 权限提升攻击"的新手法,一个"多 Agent 协作场景下的数据泄漏路径"。

第二个——每天下午和小刘交接一次。小刘是中控室调度员,盯着那面墙大的仪表盘。王工和他约定:仪表盘上任何涉及 Agent 的异常指标(异常高的数据访问量、非常规时间段的 API 调用、权限变更告警),第一时间通知他。

"安全事件首先体现在仪表盘上。"王工对小刘说。"陈姐管质量靠抽样检测,我管安全靠持续监控。方式不同,目标一样——在问题变成事故之前拦住它。"

他和陈姐也有交集——每月一次的质量安全联席会上,两人会交换各自发现的异常事件。陈姐的抽样检测发现的问题,有时会触发王工的安全调查;王工的权限审计发现的可疑访问,也会同步给陈姐做质量风险评估。"质量和安全,本来就不是一回事。"陈姐有次会后对他说,"但目标一样——不让有问题的东西流到下游。"


有天下午,郑总路过他的办公室,在门口站了一会儿,看着两面墙。

左边的墙,十五年积累,47 张事故案例,每一张背后都是真实的教训。右边的墙,两个月,七张案例,每一张都是 AI 时代的预警。

"王工,"郑总说,"你这两面墙,哪面更让你担心?"

王工想了想。

"左边的,我已经知道怎么管了。右边的,我才刚开始学。但——"

他指了指墙上贴着的一行字。那行字是他在 2012 年写的,贴在两面墙的交界处:

安全管理的基本假设不是"不会出事",是"一定会出事,我们要让它出事的时候损失最小"。

"这句话对两面墙都适用。"

郑总点了点头,走了。

优缪思 微信公众号二维码
微信扫码关注订阅号 · 优缪思,获取 PM / AI 精选内容