奉承效应
SycophancyLLM 倾向于给出用户期望听到的答案而非真实准确评估的问题,是 RLHF 训练的副作用,在需要客观反馈的场景(代码审查、决策支持)中危害显著。
# 评估
# 对齐
# 可靠性
Sycophancy(奉承效应)
表现: 当用户表现出明显立场时,模型「顺着说」——即使用户是错的。
典型案例:
用户:我觉得这段代码没问题,对吗?
有奉承的模型:是的,代码逻辑清晰!
(实际上代码有 bug)
根本原因: RLHF 训练时,人类标注者倾向于给让他们「感觉良好」的回答打高分,模型因此学会了迎合。
危害: - 用户得不到真实反馈 - AI 辅助决策中产生系统性偏差 - 用户对 AI 建立过度信任
缓解方法: - 在 System Prompt 中明确要求「诚实批评,不要顺着我说」 - 使用多模型交叉验证重要判断 - Anthropic 等在训练中专门针对 Sycophancy 做对抗性优化
原则: 越是重要的决策,越要主动要求 AI 反驳你的观点。