Post

RL专业名词笔记

RL专业名词笔记

一、核心概念

  • Agent(智能体):在环境中执行动作并学习策略的主体。

  • Environment(环境):智能体所处的外部系统,接收智能体的动作并返回新的状态和奖励。

  • State(状态):环境在某一时刻的描述,通常用向量表示。

  • Action(动作):智能体在某一状态下可以采取的操作。

  • Reward(奖励):环境对智能体动作的反馈,用于指导学习。

  • Policy(策略):智能体从状态到动作的映射,可以是确定性或随机性的。

  • Value Function(价值函数):评估某一状态或状态-动作对的长期预期回报。

  • Q Function(动作价值函数):在给定状态下,采取某一动作的预期回报。

  • Advantage Function(优势函数):衡量某一动作相对于平均水平的好坏,定义为 Q(s,a) - V(s)。

  • Return(回报):从某一时间步开始,未来所有奖励的累积和,通常带有折扣因子。

  • Discount Factor(折扣因子 γ):用于权衡未来奖励的重要性,取值范围在 [0,1]。

  • Episode(回合):智能体从初始状态开始,直到达到终止状态的一系列交互过程。

  • Trajectory(轨迹):一个回合中状态、动作和奖励的序列。

  • Exploration(探索):尝试新的动作以发现更优策略。

  • Exploitation(利用):利用已有知识选择当前最优动作。

强化学习的基本概念和术语原创 - CSDN博客, A3C, 强化学习

二、算法相关术语

  • Q-Learning:一种无模型的离策略算法,通过学习状态-动作值函数来寻找最优策略。

  • SARSA:一种有模型的在策略算法,更新规则基于当前策略的行为。

  • DQN(Deep Q-Network):结合深度学习的 Q-Learning,使用神经网络近似 Q 函数。

  • Double DQN:改进 DQN 的方法,减少 Q 值的过估计。

  • Policy Gradient(策略梯度):直接对策略进行优化的方法,适用于连续动作空间。

  • Actor-Critic:结合策略和价值函数的方法,Actor 负责策略,Critic 评估价值。

  • A2C/A3C:同步/异步的 Actor-Critic 方法,提升训练效率和稳定性。

  • PPO(Proximal Policy Optimization):一种稳定高效的策略优化算法,限制策略更新幅度。

  • DDPG(Deep Deterministic Policy Gradient):用于连续动作空间的 Actor-Critic 方法。

  • SAC(Soft Actor-Critic):最大化奖励和策略熵的 Actor-Critic 方法,提升探索能力。

一文简述多种强化学习算法,重要概念和术语一览 - 博客园, [机器学习术语表:强化学习Machine Learning](https://developers.google.com/machine-learning/glossary/rl?hl=zh-cn\&utm_source=chatgpt.com), 强化学习的基本概念和术语原创 - CSDN博客

三、训练技巧与机制

  • Experience Replay(经验回放):存储智能体的经验,用于打破数据相关性,提升学习稳定性。

  • Target Network(目标网络):用于稳定训练的辅助网络,定期更新以跟随主网络。

  • Entropy Regularization(熵正则化):在策略优化中加入熵项,鼓励策略的多样性。

  • Generalized Advantage Estimation(GAE):一种优势函数的估计方法,权衡偏差和方差。

  • TD Error(时序差分误差):当前估计值与实际回报之间的差异,用于更新价值函数。

  • On-policy / Off-policy:区分数据是否来自当前策略,影响算法的设计和适用性。

[机器学习术语表:强化学习Machine Learning](https://developers.google.com/machine-learning/glossary/rl?hl=zh-cn\&utm_source=chatgpt.com)

四、数学基础与模型

  • Markov Decision Process(马尔可夫决策过程,MDP):强化学习的数学框架,描述状态、动作、转移概率和奖励。

  • Bellman Equation(贝尔曼方程):描述价值函数的递归关系,是许多强化学习算法的基础。

  • Function Approximation(函数逼近):使用神经网络等方法近似价值函数或策略函数。

  • Reward Shaping(奖励塑形):调整奖励函数以加速学习过程。

  • Curriculum Learning(课程学习):逐步增加任务难度,提升学习效率。

一文简述多种强化学习算法,重要概念和术语一览 - 博客园

This post is licensed under CC BY 4.0 by the author.