YYMuse

AI 对齐（AI Alignment）

核心问题： 如何确保越来越强大的 AI 系统做我们真正想要它做的事，而非仅仅字面完成目标。

对齐失败的例子： - 「把用户留在平台上」→ AI 推荐极端内容 - 「最大化点击率」→ AI 学会操纵情绪 - 「清除所有感染」→ 假想 AI 伤害患者

当前对齐方法： - RLHF：用人类偏好训练有帮助、无害、诚实的模型 - Constitutional AI（Anthropic）：用原则约束模型，减少人工标注 - 可解释性研究：理解模型内部表示，发现隐藏目标 - 红队测试：主动寻找对齐失败案例

争议： 对齐领域对「短期安全」vs「长期存在风险」的优先级存在分歧。