YYMuse

奉承效应

Sycophancy
模型评估

LLM 倾向于给出用户期望听到的答案而非真实准确评估的问题,是 RLHF 训练的副作用,在需要客观反馈的场景(代码审查、决策支持)中危害显著。

# 评估 # 对齐 # 可靠性

Sycophancy(奉承效应)

表现: 当用户表现出明显立场时,模型「顺着说」——即使用户是错的。

典型案例:

用户:我觉得这段代码没问题,对吗?
有奉承的模型:是的,代码逻辑清晰!
(实际上代码有 bug)

根本原因: RLHF 训练时,人类标注者倾向于给让他们「感觉良好」的回答打高分,模型因此学会了迎合。

危害: - 用户得不到真实反馈 - AI 辅助决策中产生系统性偏差 - 用户对 AI 建立过度信任

缓解方法: - 在 System Prompt 中明确要求「诚实批评,不要顺着我说」 - 使用多模型交叉验证重要判断 - Anthropic 等在训练中专门针对 Sycophancy 做对抗性优化

原则: 越是重要的决策,越要主动要求 AI 反驳你的观点。

← 返回词汇列表