王工和一张 AI 版 HAZOP

王工的办公室在一楼，靠近厂区东门。房间不大，但两面墙很显眼。左边的墙贴了十五年——工厂事故案例图。每一张 A4 纸是一起真实事故：2011 年某厂冲压机操作工手部挤压伤、2014 年某厂高空坠落致死、2016 年某厂危化品泄漏导致停产三天、2019 年某厂叉车侧翻压伤行人……每一张都有事故经过、原因分析、整改措施。王工每年更新一次，现在贴了 47 张。

右边的墙两个月前还是空白的。现在贴了五张——每张的格式和左边一样，但内容换了：

"2024 年某银行 AI 客服向客户泄露其他用户账户信息——prompt injection 导致权限越界"

"2025 年某电商平台 AI 选品系统自动下架合规产品——训练数据偏差导致错误分类"

"2025 年某医院 AI 诊断系统给出错误用药建议——幻觉输出未经过滤直接进入临床"

"2025 年某车企 AI 客服被诱导生成虚假召回通知——社会工程攻击"

"2026 年某金融机构 AI 助理泄露内部薪酬数据——上下文注入攻击"

五张纸，每一张都是过去两年里真实发生过的 AI 安全事故。王工从公开报道和安全社区的案例库里整理出来的。

有人路过他的办公室，看到右边那面墙，问他："王工，你这是在搞什么新东西？"

他说："一样的东西。只不过危险源变了。"

王永强这个人

王永强今年 48 岁，华岳精密 EHS（环境健康安全）主管。

2009 年进厂之前，他在一家化工企业做了两年安全员。进华岳精密后，从安全工程师做起，2016 年升 EHS 主管，管到现在。

他管安全的方式有一个特点——不讲故事，讲规矩。

很多安全管理者喜欢在培训会上放事故视频、讲血的教训，靠恐惧驱动安全意识。王工不这么干。他的做法是三件事：定红线、做准入、查执行。

定红线——什么是绝对不能做的，白纸黑字写清楚。不做安全培训不能上岗、不戴防护不能进车间、不锁牌不能维修设备。没有例外。

做准入——任何新设备、新工艺、新物料进入厂区之前，先过安全评审。评审不通过，不许进场。这和 QA 的"来料检验"逻辑一样，只不过陈姐检的是质量，王工检的是安全。

查执行——红线定了、准入做了，还要查有没有人偷懒绕过。他每周带队巡检一次，不打招呼，看到问题当场记录、当天出整改通知、三天内复查。

这套方法他用了十五年，华岳精密在他手上没有出过重大安全事故。他说这不是因为他运气好，是因为他把安全的逻辑嵌入到了工厂运营的每一个环节——安全不是加法，是基础设施。去年，他开始把同样的逻辑往 AI 上搬。

那个被断网的测试环境

事情的起因是一个下午的意外发现。那天王工例行巡检经过 IT 部的测试区域，看到两个年轻工程师在对着屏幕讨论什么。他走进去随口问了一句："在测什么？"

"在测新的客服 Agent 的边界。"一个工程师说。"我们想看看它在极端情况下会怎么反应。"

"什么极端情况？"

"比如，如果有人让它去查财务系统的数据，它会去查吗？"

王工站在那里看了三十秒。屏幕上，客服 Agent 正在尝试连接财务系统的数据库接口——然后连接成功了。Agent 返回了一段数据：某个客户的历史付款记录。

"谁授权它访问财务系统的？"王工问。

"没有特别授权。它用的是一套通用的 API 账号，有系统级的访问权限。我们当时为了开发方便，给了比较宽的权限。"工程师有点不自在。

"你们在测试它的'能力边界'——它能不能访问不该访问的东西。然后你们发现，它能。"

"是的。但这是测试环境嘛，不是生产环境。"

王工看着屏幕上的财务数据，没说话。然后他走到测试区域的路由器旁边，拔掉了网线。

两个工程师愣住了。

"王工，你这是……"

"安全不是出了事再补，是动工之前就得定好红线。测试环境怎么了？测试环境里的权限配置和生产环境是一样的——你们为了方便给了一套宽权限，生产环境上线的时候谁来收？靠记忆？还是靠运气？"

他拿着那根网线站了五秒钟，然后接回去了。

"网可以接回去。但三件事，明天之前给我：第一，所有 Agent 的权限清单，列清楚每个 Agent 能访问哪些系统；第二，凡是和生产系统、财务系统、客户数据有关的权限，必须单独审批、最小授权；第三，这个权限清单纳入我的安全评审，以后每次新增 Agent 或变更权限，过我的评审。"

工程师面面相觑。一个说："王工，这不归你管吧？这是 IT 部的事。"

王工看着他："2016 年厂里那台新的冲压机进厂的时候，谁做的安全评审？"

"你。"

"为什么是我？因为那台冲压机可能压断人的手。你们的 Agent 访问了财务数据，如果是在生产环境，这叫数据泄漏。数据泄漏和压断手，在我这里都是同一件事——不该发生的事发生了，因为防线没建。"

第二天下午，三份文件放在了王工的桌上。

AI 版 HAZOP

王工开始正式建 AI 安全体系，是从 HAZOP 开始的。HAZOP（Hazard and Operability Study，危险与可操作性分析）是化工行业用了五十多年的安全分析方法。核心逻辑很简单——把一个系统拆成若干节点，对每个节点问一个问题："如果这个参数偏离了设计意图，会发生什么？"

王工把这套逻辑原样搬到了 Agent 系统上。

他把厂里的 Agent 系统拆成六个安全节点，每个节点列了"偏离场景"和"防护措施"：

节点一：身份与访问

偏离场景：Agent 被越权使用或被冒充调用。防护措施：每个 Agent 有独立身份标识，调用时必须验证来源；跨系统访问必须经过 API 网关，网关做权限校验。

节点二：输入安全

偏离场景：用户通过精心构造的输入（prompt injection）操纵 Agent 执行非预期操作。防护措施：所有用户输入经过预处理层，过滤已知注入模式；高风险操作设二次确认。

节点三：数据隔离

偏离场景：Agent 在处理一个任务时，把上一个任务的敏感数据泄漏到当前输出中。防护措施：每次请求的上下文独立隔离；敏感数据字段在传输和存储中脱敏。

节点四：输出审核

偏离场景：Agent 生成的内容包含错误信息、合规违规或不当内容。防护措施：高风险场景的 Agent 输出经过审核层（可以是规则引擎或人工审核）；输出内容合规性自动检查。

节点五：权限边界

偏离场景：Agent 在执行过程中获取或使用了超出任务需要的权限。防护措施：最小权限原则——每个 Agent 只拥有完成当前任务所需的最小权限集合；权限定期审查和回收。

节点六：审计追踪

偏离场景：Agent 的操作无法追溯，出了问题无法定位原因和责任。防护措施：所有 Agent 调用、数据访问、权限变更都有完整日志；日志保留期不少于 180 天。

六页纸，每页一个节点。王工把这套东西叫做"AI 版 HAZOP"。

安全准入

HAZOP 做完之后，王工把它的结论嵌入到工厂已有的安全准入流程里。

之前的安全准入管的是物理设备——新设备进厂，要过 EHS 评审，评审不通过不许进场。现在加了一条：新 Agent 上线，也要过安全评审。

评审内容就是 HAZOP 的六个节点——身份与访问做了没有？输入安全怎么保证？数据隔离方案是什么？输出审核机制有没有？权限边界划清楚没有？审计追踪全不全？

王工做了一张评审表，六个大项，每项下面三到五个检查点，总共 24 个检查点。Agent 负责人填表，王工审核。填不出来的，退回去补。

第一轮评审，他把 V-2 订单处理 Agent 的评审表退了回去——"节点三数据隔离，你的方案写的是'上下文独立隔离'，具体怎么隔离？用什么机制？如果两个订单用了同一个客户的敏感数据，怎么保证不会串？"

IT 部的工程师花了一周时间补了这个方案。第二次提交，王工签了字。

有人抱怨他太严了。王工指着左边墙上 2018 年的一张事故案例说："那年这台冲压机的安全罩，也是有人觉得'太严了'。后来操作工的手指保全了，因为安全罩拦了一下。安全准入的意义不是让工作变难，是让事故变少。"

两个新习惯

做完 AI 版 HAZOP 之后，王工多了两个新习惯。

第一个——每天早上花十分钟看"AI 安全通报"。他订阅了三个安全社区和两个行业通报源，每天早上八点到办公室先扫一遍，看有没有新的攻击手法或事故案例。有值得注意的，打印出来贴到右边墙上。

右边墙上的案例，两个月前是五张，现在是七张。新增的两张都是他从安全通报里发现的——一个"Agent 权限提升攻击"的新手法，一个"多 Agent 协作场景下的数据泄漏路径"。

第二个——每天下午和小刘交接一次。小刘是中控室调度员，盯着那面墙大的仪表盘。王工和他约定：仪表盘上任何涉及 Agent 的异常指标（异常高的数据访问量、非常规时间段的 API 调用、权限变更告警），第一时间通知他。

"安全事件首先体现在仪表盘上。"王工对小刘说。"陈姐管质量靠抽样检测，我管安全靠持续监控。方式不同，目标一样——在问题变成事故之前拦住它。"

他和陈姐也有交集——每月一次的质量安全联席会上，两人会交换各自发现的异常事件。陈姐的抽样检测发现的问题，有时会触发王工的安全调查；王工的权限审计发现的可疑访问，也会同步给陈姐做质量风险评估。"质量和安全，本来就不是一回事。"陈姐有次会后对他说，"但目标一样——不让有问题的东西流到下游。"

有天下午，郑总路过他的办公室，在门口站了一会儿，看着两面墙。

左边的墙，十五年积累，47 张事故案例，每一张背后都是真实的教训。右边的墙，两个月，七张案例，每一张都是 AI 时代的预警。

"王工，"郑总说，"你这两面墙，哪面更让你担心？"

王工想了想。

"左边的，我已经知道怎么管了。右边的，我才刚开始学。但——"

他指了指墙上贴着的一行字。那行字是他在 2012 年写的，贴在两面墙的交界处：

安全管理的基本假设不是"不会出事"，是"一定会出事，我们要让它出事的时候损失最小"。

"这句话对两面墙都适用。"

郑总点了点头，走了。

王永强这个人

那个被断网的测试环境

AI 版 HAZOP

安全准入

两个新习惯

相关手记