人类反馈强化学习
RLHF通过人类对模型输出的偏好评分训练奖励模型,再用强化学习优化 LLM,使其更有帮助、更无害、更诚实。
# 训练
# 对齐
RLHF(人类反馈强化学习)
三阶段流程: 1. SFT(监督微调):用高质量示例数据微调预训练模型 2. 奖励模型训练:人类标注哪个回答更好,训练奖励模型 3. RL 优化:用 PPO 等算法优化 LLM,使奖励模型评分更高
Anthropic 的 Constitutional AI: 用一组原则替代部分人工标注,更可扩展。
提示: RLHF 让模型变得更"听话",但也可能导致过度顺从(Sycophancy)。