YYMuse

强化学习

Reinforcement Learning
基础概念

智能体通过与环境交互、获取奖励信号来学习最优策略,是训练游戏 AI、机器人和 LLM 对齐(RLHF)的核心范式。

# 基础 # RLHF

强化学习

核心要素: - 智能体(Agent):做决策的主体 - 环境(Environment):智能体所处的世界 - 状态(State):当前观察到的环境信息 - 动作(Action):智能体可以采取的操作 - 奖励(Reward):环境对动作的反馈信号

学习目标: 最大化累积长期奖励(而非即时奖励)。

经典算法: - Q-Learning / DQN:值函数方法 - PPO(近端策略优化):RLHF 训练 LLM 的核心算法 - AlphaGo/AlphaZero:蒙特卡洛树搜索 + RL

在 LLM 中的应用: RLHF 用人类偏好评分作为奖励信号,用 PPO 优化语言模型使其更有帮助。

← 返回词汇列表