YYMuse

DPO（直接偏好优化）

RLHF 的痛点： 需要训练独立的奖励模型，再用 PPO 优化策略，流程复杂、训练不稳定。

DPO 的思路： 数学上证明最优策略可以直接从偏好数据中推导，绕过奖励模型。

数据格式：

{
  prompt: "解释量子纠缠",
  chosen: "量子纠缠是...[详细准确的解释]",
  rejected: "量子纠缠就是两个粒子相互认识了..."
}

对比：

提示： 开源社区（Llama、Mistral 微调）通常优先用 DPO，工业界大模型仍多用 RLHF 变体。