强化学习
Reinforcement Learning智能体通过与环境交互、获取奖励信号来学习最优策略,是训练游戏 AI、机器人和 LLM 对齐(RLHF)的核心范式。
# 基础
# RLHF
强化学习
核心要素: - 智能体(Agent):做决策的主体 - 环境(Environment):智能体所处的世界 - 状态(State):当前观察到的环境信息 - 动作(Action):智能体可以采取的操作 - 奖励(Reward):环境对动作的反馈信号
学习目标: 最大化累积长期奖励(而非即时奖励)。
经典算法: - Q-Learning / DQN:值函数方法 - PPO(近端策略优化):RLHF 训练 LLM 的核心算法 - AlphaGo/AlphaZero:蒙特卡洛树搜索 + RL
在 LLM 中的应用: RLHF 用人类偏好评分作为奖励信号,用 PPO 优化语言模型使其更有帮助。