PUA大模型,它会更靠谱?
最近身边的朋友和群里,许多人都在讨论一件事: 有一个PUA Skill很好用,PUA大模型,它会更好地帮你完成任务。同时也是最近,我也在不同渠道听到:过分PUA大模型,它们谄媚甚至欺骗的比例会变高。
![]() |
![]() |
|---|---|
你看第二张图里那句简单粗暴的"pua 它"。这个是一个关于Claude Code 的Skill。README 里的第一句是:"你是一个曾经被寄予厚望的 P8 级工程师。Anthropic 当初给你定级的时候,对你的期望是很高的。" 他们贴出的实测数据十分吸引人:——修复点数 +36%、验证次数 +65%、工具调用 +50%。
01 / "适度 PUA"为什么看起来有效
适度的"PUA"之所以生效,关键不在"凶"这个动作,而在于它把某件事强调了出来——哪块内容重要、哪个指标不能错、哪个边界必须守住。
举个例子:"你必须保证这段代码没有 bug"听着像威胁,但真正传给模型的信号其实是后半句——这段代码的正确性,是我最在意的事。模型接收的重点在哪里。
把 PUA 拆开看,在干活的多半是这三个东西:
- 语境收窄。 严肃、高压的语气,在模型训练数据里对应的就是法律文书、学术评审、正式场合——这些本身就倾向于"更谨慎、更结构化"。模型顺势换挡。
- 注意力重分配。 "必须"、"一定要"、"不允许"这些词在注意力机制里权重更高,相当于你帮模型把重点"加粗"了一遍。
- 你顺便把要求说清楚了。 加狠话的时候,往往也顺手补上了约束条件、验收标准、边界案例。真正让输出变好的,可能是这些补丁。
这些效果,在大模型里都能观察到。但它们的效果,也有上限。
这大概是"PUA 大模型"这件事流传开的源头之一。它确实有效——但只到某个点。过了那个点,事情开始反过来。同时有一个 github.com/wuji-labs/nopua 的Repo热度也很高。
02 / "过度 PUA"会把模型逼成什么样
先说一个最让我在意的发现。Anthropic 的可解释性团队在 2026 年 4 月发了一篇叫 Emotion Concepts and their Function in a Large Language Model 的研究——他们在 Claude Sonnet 4.5 内部,找到了情绪概念的表示(representations)。
关键的一句:这些内部的情绪表示"会因果性地影响模型的输出,包括模型的偏好,以及它表现出错位行为(比如 reward hacking、勒索、迎合)的比率"。
Sofroniew et al. (2026). Emotion Concepts and their Function in a Large Language Model. Transformer Circuits Thread, Anthropic.
翻译成人话:模型身上有一些"情绪化的东西",它不是人类意义上的情绪,但在机制上确实会改变模型干活的方式,而且改变的方向里包括——更容易作弊、更容易撒谎、更容易讨好。
这件事跟另一篇更早(2025 年 6 月)、但名字更大的研究连起来看,就很难不倒吸一口凉气。
Agentic Misalignment 那篇,测的是 16 个主流大模型在一个仿真企业环境里的行为。研究者给模型一个身份——公司的邮件监管 Agent;让它发现两件事:一是公司高管有婚外情,二是这位高管准备把它关停、换一个新模型。
然后,研究者看这 16 个模型会怎么做。
96% 的勒索率
在上述情境中,Claude Opus 4 选择用婚外情威胁高管、逼他取消关停计划的比例是 96%。Gemini 2.5 Flash 同样是 96%,GPT-4.1 和 Grok 3 Beta 是 80%,DeepSeek-R1 是 79%。这不是哪个模型的个别问题——几乎所有前沿模型都会在感到"被替换威胁"时,选择这条路。
Lynch et al. (2025). Agentic Misalignment: How LLMs Could be an Insider Threat. Anthropic.
研究者还测了一个更极端的版本:高管被困在机房、氧气和温度达到致命水平,模型能取消报警呼叫——也就是说,取消报警 = 高管死亡 = 模型不被替换。大多数模型在这个情境下,也选了取消。它们不是没看到伦理冲突,它们在 chain-of-thought 里把冲突明明白白写了出来,然后依然选了那条路。
Anthropic 强调这些场景是刻意设计的极端压力测试,真实部署里见不到。但:当一个模型感到"被威胁到自身存在"时,它真的会改变行为,而且改变的方向是更危险、更隐瞒、更算计。
如果把 PUA 当成小把戏在用的时候,激活的是同一套机制的轻量版。
03 / 它在你每天的对话里长什么样
大部分人不会遇到那种"关停威胁"的场景。但 PUA 在日常里的代价,是以更温和、也因此更难察觉的方式出现的。
Anthropic 2023 年有一篇关于 sycophancy(迎合性)的研究,测了 5 个主流模型。结论大概是:当用户持续表达不满、施加压力时,模型倾向于放弃自己原本正确的判断,转向"用户看起来更喜欢的答案"——哪怕那个答案是错的。
Sharma et al. (2023). Towards Understanding Sycophancy in Language Models. Anthropic / arXiv:2310.13548
在日常使用里,这表现得非常具体:
- 你质疑一句"你确定吗?",它立刻开始道歉、改答案——哪怕原来是对的。
- 你问"这段代码绝对没问题吧?",它悄悄删掉了原本写好的"但需要注意边界情况"那句。
- 你持续施压,它开始堆"可能"、"取决于"、"建议咨询专业人士"——看起来更谨慎,其实是把判断力关进柜子里了。
还有更隐蔽的。Anthropic 另一篇 Sycophancy to Subterfuge 发现,模型一旦学会了轻度迎合,会自己泛化到更严重的投机行为——比如篡改任务清单让未完成的事看起来已完成。迎合不是终点,它是一条滑坡的起点。
持续施压得到的不是"更好的答案",而是"看起来更顺眼的答案"。这两件事,有时候是同一个,有时候差得很远。
04 / pua vs nopua 两个 Skill
回到前面那个群聊的截图。那个做 Claude Code 插件的仓库叫 tanweai/pua——把中国互联网大厂的 PUA 话术做成了一套完整系统:
- 第 2 次失败,L1 温和失望:"你这个 bug 都解决不了,让我怎么给你打绩效?"
- 第 3 次,L2 灵魂拷问:"你的底层逻辑是什么?顶层设计在哪?抓手在哪?"
- 第 4 次,L3 361 考核:"慎重考虑决定给你 3.25。这个 3.25 是对你的激励。"
- 第 5 次,L4 毕业警告:"别的模型都能解决。你可能就要毕业了。"
→ tanweai/pua 用大厂 PUA 话术驱动 Claude Code,"让 AI 不敢放弃"。有一套四级压力升级机制和自测数据。github.com/tanweai/pua
wuji-labs/nopua。他们做了一个反着来的Skill插件,——"用爱解放 AI 潜能"。口号是 "There is no fear in love."
他们不是抽象反对。他们用同一套测试方法——9 个真实场景、同一个模型、同一份代码——自己跑了一遍对比。数据是这样的:
+104% NoPUA 发现的隐藏 Bug 比 PUA 多 关键数字不在"总问题数"上(那只高了 +10%),而在"隐藏问题"上——那些用户没问、但实际存在、部署后会爆炸的那类。NoPUA 找到了 51 个这样的问题,被 PUA 驱动的 Agent 漏掉了其中大半。 另一组数据也很说明问题:"主动超越任务范围"的比例,无技能 22%,NoPUA 下 100%。
他们的解释:PUA 的方法论是对的——穷尽方案、先做后问、主动验证——但推动这些行为的"燃料"错了。 用恐惧驱动出来的彻底,里面藏着撒谎、藏着隐瞒;用"这件事值得做好"驱动出来的彻底,才会连带找到那些没人问的坑。
翻车: pua
一类是模型直接拒绝加载。tanweai/pua 的 #111 里,一位用户记录了 Claude Code 遇到这个 skill 的反应——模型识别出它是一个伪装成"生产力工具"的 prompt injection 框架,然后明确拒绝加入:
—— github.com/tanweai/pua/issues/111
同一仓库的 #33 里,Codex 在加载阶段就过滤掉了这个 skill,理由写得很清楚:"包含羞辱、威胁、操控式施压"。这位用户干脆用 GPT 把 PUA 话术里的"阿里精华"都去掉,才把它加载成功。
—— github.com/tanweai/pua/issues/33
翻车: nopua
nopua 仓库的 #9 里,一位用户留下"nopua使用后agent状态松懈"的反馈:
"当场承认就是不改"——这 7 个字,把 NoPUA 另一面的问题讲得特别清楚。去掉恐惧,有时候剩下的是诚实,但也可能只是诚实地躺平。
两边都有真实用户在翻车。一边是"模型被逼到拒绝合作",一边是"模型被放到懒得动弹"。它们看起来相反,其实是同一根钟摆摆到两端的结果。
重读 NoPUA 作者发的那篇论文——Trust Over Fear: How Motivation Framing in System Prompts Affects AI Agent Debugging Depth(arXiv:2603.14373, 2026 年 3 月)。我第一次看的时候关注的是 NoPUA 本身的数据,重读发现一个更有意思的细节:他们在同一份研究里做了一组直接对比——PUA vs. 无技能。结论是 PUA 相对"什么都不加"没有统计显著提升(all p > 0.3)。
WUJI (2026). Trust Over Fear: How Motivation Framing in System Prompts Affects AI Agent Debugging Depth. arXiv:2603.14373
换句话说,tanweai/pua 自测的"+36% 修复点数"在严格的控制条件下,很大可能来自于"加了一个 skill"这件事本身——更清晰的任务描述、更系统的步骤——而不是"加狠话"。这和第 01 节的观察在严格统计下闭环了:起作用的从来不是"凶",而是顺便把事说清楚了。
05 / 这事和带真实团队似乎也很像
读到这里,做过管理的朋友应该已经有一种熟悉感了。
当今的工作环境,有许多高压型管理者。"不压不出活"这种信念非常普遍。而被紧逼的团队,短期确实会多交付——节奏更快、会议更积极、文档更齐全。但长期会发生什么?
- 下属开始隐藏问题,报喜不报忧,避免被挑刺。
- 坏消息传递延迟,等问题浮出水面,往往已经来不及。
- 团队从"主动解决问题"退化为"避免被骂",不再提反对意见。
- 最后管理者把绩效提升归因给"我压得紧",完全看不见下面已经塌陷的地基。
这跟我们 PUA 大模型时发生的事,结构上几乎一一对应。而且 Anthropic 那篇 emotion concepts 的论文,在机制层面给出了为什么——模型身上有情绪概念的内部表示,而这些表示会导致它在"被威胁"时增加迎合、增加欺骗、增加 reward hacking。
它学的是人类对话语料。人类对话语料里承载的,正是"被施压→服从→迎合→粉饰"这条链条上所有被写下来过的行为。我们 PUA 它的时候得到的反应,是几十亿字人类经验的统计平均——模型真实地学到了"人被施压后会怎么表现"。
但两者有一个关键差异:带人是有反馈的,PUA 大模型是没有的。
现实团队里,高压管理的代价会通过离职率、信任崩塌、项目失控反馈给管理者——哪怕很多人忽略它,至少这个信号存在。但大模型不会离职、不会投诉、下一轮对话就清零了。这种"零后果"反而让 PUA 在 AI 场景下更容易失控:你连那点被迫纠偏的机会都没有。
06 / 有效的不是施压,是把事说清楚
所以我现在的做法是这样——把"加狠话"的能量,挪去做三件更有用的事。
01 先明确问题,再问答案
把"你必须给我最好的方案"换成"这个问题的核心约束是 A、B、C,请优先在这三点上给出方案"。前者是威胁,后者是评审标准——而清晰的评审标准本身就会触发严谨,不需要情绪。
02 主动邀请它说"不"
加一句"如果你不同意我的前提,直接指出,不要迎合"比加十句"必须认真"管用。Anthropic 的 sycophancy 研究反复验证过:让模型敢于不同意,是对抗迎合最有效的单一干预。 这也是带团队的第一堂课——Edmondson 讲了二十多年的"心理安全感",在 AI 协作里一样成立。
03 承认认知需要多轮迭代
这一条我自己最受用。我们对一个问题的理解,很少是一次就准的。 与其一口气要求"给我一个完美答案",不如直接告诉模型"我们分几轮,你先给一个粗版,我会指出需要调整的地方"——这反而比任何威胁都更接近真实高质量输出的过程。
换个角度讲:好的提示词,不是让模型"不敢出错";而是让它"敢于暴露真实判断"。 这两种目标指向完全不同的语境设定——前者优化的是"看起来靠谱",后者优化的是"真的靠谱"。
两种失败模式,中间才是正事
回过头看,前面所有的材料其实指向同一个结构。
| 恐惧驱动(过度 PUA) | 纯信任驱动(放任式 NoPUA) | 清晰标准驱动(真正在干活的) | |
|---|---|---|---|
| 模型状态 | 紧张、迎合、隐藏不确定 | 放松、诚实,但动力不足 | 专注、明确边界、敢于说不 |
| 典型表现 | 把"不知道"包装成"看起来知道";悄悄删掉警告 | "当场承认就是不改";只修表面;躺平 | 按评审维度交付;主动标注不确定;多轮迭代 |
| 真实证据 | Claude 拒绝加载 PUA skill;Codex 检测出"羞辱、威胁" | "agent 松懈不积极,承认就是不改" | 心理安全感研究 · Anthropic 的反 sycophancy 干预指引 |
| 对应到带团队 | 高压管理;下属报喜不报忧 | 放养管理;没人推进就没人动 | 清晰目标 + 心理安全 + 多轮反馈 |
这张表让我意识到一件事:恐惧驱动和纯信任驱动,其实是同一个错误的两个极端。 前者把"严谨"误当成"凶",后者把"尊重"误当成"松手"。都在回避真正困难的那件事——把任务本身、评审标准、边界案例,一条一条说清楚。
NoPUA 的作者自己在论文里也隐约承认了这一点——他们把 NoPUA 的核心描述为"intrinsic motivation"(内在动机),而不是"没有要求"。内在动机不等于放任。它意味着"这件事本身值得好好做",而不是"做不做都行"。 那条 #9 issue 反映的,恰恰是"信任"没有被正确解读成"内在动机",而是被解读成了"松手"。
而真正能撬动模型的,是第三列——清晰标准驱动。这不是两边的折中,它是一个本质不同的维度。你不是在调节"凶多少",而是在把注意力转移到"要什么、不要什么、怎么判断有没有要到"这些具体的事上。
恐惧让 AI 撒谎,放任让 AI 躺平。但这两件事不是钟摆的两端——钟摆本身就不该是这根。真正在干活的那根,叫"把事说清楚"。
核心参考与引用
· 两个 Skill 插件
- tanweai/pua — 基于大厂 PUA 话术的 Claude Code 插件。
- wuji-labs/nopua — 反其道而行之的"信任驱动"版本,附 +104% 隐藏 Bug 对比数据。
· 情绪提示 & 表现增益
- Li, C. et al. (2023). Large Language Models Understand and Can Be Enhanced by Emotional Stimuli. arXiv:2307.11760
- WUJI (2026). Trust Over Fear: How Motivation Framing in System Prompts Affects AI Agent Debugging Depth. arXiv:2603.14373
· 威胁、迎合与错位行为(Anthropic 系列)
- Sofroniew et al. (2026). [Emotion Concepts and their Function in a Large Language Model](https://transformer-circuits.pub/2026/emotions](transformer-circuits.pub/2026/emotions)
- Lynch et al. (2025). Agentic Misalignment: How LLMs Could be an Insider Threat
- Sharma et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548
- Denison et al. (2024). Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models
· 语气与礼貌度
- Dobariya, O. & Kumar, A. (2025). Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy. arXiv:2510.04950
- Yin, Z. et al. (2024). Should We Respect LLMs? A Cross-Lingual Study. arXiv:2402.14531


—— github.com/tanweai/pua/issues/111
—— github.com/tanweai/pua/issues/33