RL专业名词笔记
一、核心概念
Agent(智能体):在环境中执行动作并学习策略的主体。
Environment(环境):智能体所处的外部系统,接收智能体的动作并返回新的状态和奖励。
State(状态):环境在某一时刻的描述,通常用向量表示。
Action(动作):智能体在某一状态下可以采取的操作。
Reward(奖励):环境对智能体动作的反馈,用于指导学习。
Policy(策略):智能体从状态到动作的映射,可以是确定性或随机性的。
Value Function(价值函数):评估某一状态或状态-动作对的长期预期回报。
Q Function(动作价值函数):在给定状态下,采取某一动作的预期回报。
Advantage Function(优势函数):衡量某一动作相对于平均水平的好坏,定义为 Q(s,a) - V(s)。
Return(回报):从某一时间步开始,未来所有奖励的累积和,通常带有折扣因子。
Discount Factor(折扣因子 γ):用于权衡未来奖励的重要性,取值范围在 [0,1]。
Episode(回合):智能体从初始状态开始,直到达到终止状态的一系列交互过程。
Trajectory(轨迹):一个回合中状态、动作和奖励的序列。
Exploration(探索):尝试新的动作以发现更优策略。
Exploitation(利用):利用已有知识选择当前最优动作。
二、算法相关术语
Q-Learning:一种无模型的离策略算法,通过学习状态-动作值函数来寻找最优策略。
SARSA:一种有模型的在策略算法,更新规则基于当前策略的行为。
DQN(Deep Q-Network):结合深度学习的 Q-Learning,使用神经网络近似 Q 函数。
Double DQN:改进 DQN 的方法,减少 Q 值的过估计。
Policy Gradient(策略梯度):直接对策略进行优化的方法,适用于连续动作空间。
Actor-Critic:结合策略和价值函数的方法,Actor 负责策略,Critic 评估价值。
A2C/A3C:同步/异步的 Actor-Critic 方法,提升训练效率和稳定性。
PPO(Proximal Policy Optimization):一种稳定高效的策略优化算法,限制策略更新幅度。
DDPG(Deep Deterministic Policy Gradient):用于连续动作空间的 Actor-Critic 方法。
SAC(Soft Actor-Critic):最大化奖励和策略熵的 Actor-Critic 方法,提升探索能力。
一文简述多种强化学习算法,重要概念和术语一览 - 博客园, [机器学习术语表:强化学习 Machine Learning](https://developers.google.com/machine-learning/glossary/rl?hl=zh-cn\&utm_source=chatgpt.com), 强化学习的基本概念和术语原创 - CSDN博客
三、训练技巧与机制
Experience Replay(经验回放):存储智能体的经验,用于打破数据相关性,提升学习稳定性。
Target Network(目标网络):用于稳定训练的辅助网络,定期更新以跟随主网络。
Entropy Regularization(熵正则化):在策略优化中加入熵项,鼓励策略的多样性。
Generalized Advantage Estimation(GAE):一种优势函数的估计方法,权衡偏差和方差。
TD Error(时序差分误差):当前估计值与实际回报之间的差异,用于更新价值函数。
On-policy / Off-policy:区分数据是否来自当前策略,影响算法的设计和适用性。
[机器学习术语表:强化学习 Machine Learning](https://developers.google.com/machine-learning/glossary/rl?hl=zh-cn\&utm_source=chatgpt.com)
四、数学基础与模型
Markov Decision Process(马尔可夫决策过程,MDP):强化学习的数学框架,描述状态、动作、转移概率和奖励。
Bellman Equation(贝尔曼方程):描述价值函数的递归关系,是许多强化学习算法的基础。
Function Approximation(函数逼近):使用神经网络等方法近似价值函数或策略函数。
Reward Shaping(奖励塑形):调整奖励函数以加速学习过程。
Curriculum Learning(课程学习):逐步增加任务难度,提升学习效率。