DPO
Direct Preference OptimizationRLHF 的简化替代方案,直接用人类偏好数据优化语言模型策略,无需单独训练奖励模型,训练更稳定、实现更简单。
# 训练
# 对齐
# 偏好优化
DPO(直接偏好优化)
RLHF 的痛点: 需要训练独立的奖励模型,再用 PPO 优化策略,流程复杂、训练不稳定。
DPO 的思路: 数学上证明最优策略可以直接从偏好数据中推导,绕过奖励模型。
数据格式:
{
prompt: "解释量子纠缠",
chosen: "量子纠缠是...[详细准确的解释]",
rejected: "量子纠缠就是两个粒子相互认识了..."
}
对比:
| RLHF | DPO | |
|---|---|---|
| 奖励模型 | 需要 | 不需要 |
| 训练稳定性 | 较差(PPO 敏感) | 较好 |
| 实现复杂度 | 高 | 低 |
| 效果 | 略优 | 接近 |
提示: 开源社区(Llama、Mistral 微调)通常优先用 DPO,工业界大模型仍多用 RLHF 变体。