RL专业名词笔记

Posted May 4, 2025

By jelech

6 min read

RL专业名词笔记

一、核心概念

Agent（智能体）：在环境中执行动作并学习策略的主体。
Environment（环境）：智能体所处的外部系统，接收智能体的动作并返回新的状态和奖励。
State（状态）：环境在某一时刻的描述，通常用向量表示。
Action（动作）：智能体在某一状态下可以采取的操作。
Reward（奖励）：环境对智能体动作的反馈，用于指导学习。
Policy（策略）：智能体从状态到动作的映射，可以是确定性或随机性的。
Value Function（价值函数）：评估某一状态或状态-动作对的长期预期回报。
Q Function（动作价值函数）：在给定状态下，采取某一动作的预期回报。
Advantage Function（优势函数）：衡量某一动作相对于平均水平的好坏，定义为 Q(s,a) - V(s)。
Return（回报）：从某一时间步开始，未来所有奖励的累积和，通常带有折扣因子。
Discount Factor（折扣因子 γ）：用于权衡未来奖励的重要性，取值范围在 [0,1]。
Episode（回合）：智能体从初始状态开始，直到达到终止状态的一系列交互过程。
Trajectory（轨迹）：一个回合中状态、动作和奖励的序列。
Exploration（探索）：尝试新的动作以发现更优策略。
Exploitation（利用）：利用已有知识选择当前最优动作。

强化学习的基本概念和术语原创 - CSDN博客, A3C, 强化学习

二、算法相关术语

Q-Learning：一种无模型的离策略算法，通过学习状态-动作值函数来寻找最优策略。
SARSA：一种有模型的在策略算法，更新规则基于当前策略的行为。
DQN（Deep Q-Network）：结合深度学习的 Q-Learning，使用神经网络近似 Q 函数。
Double DQN：改进 DQN 的方法，减少 Q 值的过估计。
Policy Gradient（策略梯度）：直接对策略进行优化的方法，适用于连续动作空间。
Actor-Critic：结合策略和价值函数的方法，Actor 负责策略，Critic 评估价值。
A2C/A3C：同步/异步的 Actor-Critic 方法，提升训练效率和稳定性。
PPO（Proximal Policy Optimization）：一种稳定高效的策略优化算法，限制策略更新幅度。
DDPG（Deep Deterministic Policy Gradient）：用于连续动作空间的 Actor-Critic 方法。
SAC（Soft Actor-Critic）：最大化奖励和策略熵的 Actor-Critic 方法，提升探索能力。

一文简述多种强化学习算法，重要概念和术语一览 - 博客园, [机器学习术语表：强化学习 Machine Learning](https://developers.google.com/machine-learning/glossary/rl?hl=zh-cn\&utm_source=chatgpt.com), 强化学习的基本概念和术语原创 - CSDN博客

三、训练技巧与机制

Experience Replay（经验回放）：存储智能体的经验，用于打破数据相关性，提升学习稳定性。
Target Network（目标网络）：用于稳定训练的辅助网络，定期更新以跟随主网络。
Entropy Regularization（熵正则化）：在策略优化中加入熵项，鼓励策略的多样性。
Generalized Advantage Estimation（GAE）：一种优势函数的估计方法，权衡偏差和方差。
TD Error（时序差分误差）：当前估计值与实际回报之间的差异，用于更新价值函数。
On-policy / Off-policy：区分数据是否来自当前策略，影响算法的设计和适用性。

[机器学习术语表：强化学习 Machine Learning](https://developers.google.com/machine-learning/glossary/rl?hl=zh-cn\&utm_source=chatgpt.com)

四、数学基础与模型

Markov Decision Process（马尔可夫决策过程，MDP）：强化学习的数学框架，描述状态、动作、转移概率和奖励。
Bellman Equation（贝尔曼方程）：描述价值函数的递归关系，是许多强化学习算法的基础。
Function Approximation（函数逼近）：使用神经网络等方法近似价值函数或策略函数。
Reward Shaping（奖励塑形）：调整奖励函数以加速学习过程。
Curriculum Learning（课程学习）：逐步增加任务难度，提升学习效率。

一文简述多种强化学习算法，重要概念和术语一览 - 博客园

算法模型

机器学习笔记

This post is licensed under CC BY 4.0 by the author.

一、核心概念

二、算法相关术语

三、训练技巧与机制

四、数学基础与模型

Trending Tags