YYMuse

人类反馈强化学习

RLHF

训练与优化

通过人类对模型输出的偏好评分训练奖励模型，再用强化学习优化 LLM，使其更有帮助、更无害、更诚实。

# 训练 # 对齐

RLHF（人类反馈强化学习）

三阶段流程： 1. SFT（监督微调）：用高质量示例数据微调预训练模型 2. 奖励模型训练：人类标注哪个回答更好，训练奖励模型 3. RL 优化：用 PPO 等算法优化 LLM，使奖励模型评分更高

Anthropic 的 Constitutional AI： 用一组原则替代部分人工标注，更可扩展。

提示： RLHF 让模型变得更"听话"，但也可能导致过度顺从（Sycophancy）。