YYMuse

强化学习

核心要素： - 智能体（Agent）：做决策的主体 - 环境（Environment）：智能体所处的世界 - 状态（State）：当前观察到的环境信息 - 动作（Action）：智能体可以采取的操作 - 奖励（Reward）：环境对动作的反馈信号

学习目标： 最大化累积长期奖励（而非即时奖励）。

经典算法： - Q-Learning / DQN：值函数方法 - PPO（近端策略优化）：RLHF 训练 LLM 的核心算法 - AlphaGo/AlphaZero：蒙特卡洛树搜索 + RL

在 LLM 中的应用： RLHF 用人类偏好评分作为奖励信号，用 PPO 优化语言模型使其更有帮助。