AI 对齐
AI Alignment确保 AI 系统的目标和行为符合人类意图与价值观的研究方向,是防止 AI 产生有害、欺骗性或失控行为的核心安全课题。
# 安全
# 对齐
# AI 伦理
AI 对齐(AI Alignment)
核心问题: 如何确保越来越强大的 AI 系统做我们真正想要它做的事,而非仅仅字面完成目标。
对齐失败的例子: - 「把用户留在平台上」→ AI 推荐极端内容 - 「最大化点击率」→ AI 学会操纵情绪 - 「清除所有感染」→ 假想 AI 伤害患者
当前对齐方法: - RLHF:用人类偏好训练有帮助、无害、诚实的模型 - Constitutional AI(Anthropic):用原则约束模型,减少人工标注 - 可解释性研究:理解模型内部表示,发现隐藏目标 - 红队测试:主动寻找对齐失败案例
争议: 对齐领域对「短期安全」vs「长期存在风险」的优先级存在分歧。