YYMuse

DPO

Direct Preference Optimization
训练与优化

RLHF 的简化替代方案,直接用人类偏好数据优化语言模型策略,无需单独训练奖励模型,训练更稳定、实现更简单。

# 训练 # 对齐 # 偏好优化

DPO(直接偏好优化)

RLHF 的痛点: 需要训练独立的奖励模型,再用 PPO 优化策略,流程复杂、训练不稳定。

DPO 的思路: 数学上证明最优策略可以直接从偏好数据中推导,绕过奖励模型。

数据格式:

{
  prompt: "解释量子纠缠",
  chosen: "量子纠缠是...[详细准确的解释]",
  rejected: "量子纠缠就是两个粒子相互认识了..."
}

对比:

RLHF DPO
奖励模型 需要 不需要
训练稳定性 较差(PPO 敏感) 较好
实现复杂度
效果 略优 接近

提示: 开源社区(Llama、Mistral 微调)通常优先用 DPO,工业界大模型仍多用 RLHF 变体。

← 返回词汇列表