YYMuse

人类反馈强化学习

RLHF
训练与优化

通过人类对模型输出的偏好评分训练奖励模型,再用强化学习优化 LLM,使其更有帮助、更无害、更诚实。

# 训练 # 对齐

RLHF(人类反馈强化学习)

三阶段流程: 1. SFT(监督微调):用高质量示例数据微调预训练模型 2. 奖励模型训练:人类标注哪个回答更好,训练奖励模型 3. RL 优化:用 PPO 等算法优化 LLM,使奖励模型评分更高

Anthropic 的 Constitutional AI: 用一组原则替代部分人工标注,更可扩展。

提示: RLHF 让模型变得更"听话",但也可能导致过度顺从(Sycophancy)。

← 返回词汇列表