强化学习算法分类汇总

1. Model-Free 与 Model-Based RL

根据Agent是否理解其所处的环境,可以将强化学习方法分为:无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)。

Model-Free RL直接让Agent在环境中做出动作,通过不断试错来找到针对特定环境的最佳策略。

Model-Based RL通过对环境进行理解,建立一个环境模型,Agent可以在模型中对下一步的状态和反馈做出预测,找出最佳策略,再在现实环境中做出动作。

Model-Free RLModel-Based RL
Q LeaningQ Leaning
SarsaSarsa
Policy GradientsPolicy Gradients

2. Policy-Based 与 Value-Based RL

根据Agent选取动作的策略不同,可以将强化学习方法分为:基于概率的强化学习(Policy-Based RL)和基于价值的强化学习(Value-Based RL)。

Policy-Based RL中Agent在某一状态时的所有可能动作都有一定概率被选中,只是不同动作有不同的概率。由于概率的分布可以是离散或者连续的,因此基于概率的强化学习适用于离散和连续的两种不同动作的选取。

Value-Based RL中会对Agent在某一状态时的所有可能动作,按对应得到的反馈值进行排序,并选用反馈值最高的动作。基于价值的强化学习只适用于离散动作的选取。

Policy-Based RLValue-Based RL
Policy GradientsQ Leaning
Sarsa
Actor-Critic、
Asynchronous Advantage Actor-Critic
(Actor会基于概率做出动作,Critic会评估动作的反馈值)

3. Monte-Carlo Update 与 Temporal-Difference Update RL

根据策略或价值函数的更新频率,可以将强化学习方法分为:回合更新强化学习(Monte-Carlo Update RL, MC)和单步更新强化学习(Temporal-Difference Update RL, TD)

Monte-Carlo Update RL每次都需要采样一条完整的轨迹 τ \tau τ之后才能对策略或价值函数进行更新。

Temporal-Difference Update RL可以在每完成一步(得到一个观测,采取一个动作并得到反馈值)之后就对策略或价值函数进行更新。

Monte-Carlo Update RLTemporal-Difference Update RL
Policy GradientsQ Leaning
Monte-Carlo LearningSarsa
Deep Deterministic Policy Gradient
Proximal Policy Optimization、
Distributed Proximal Policy Optimization

4. On-Policy 与 Off-Policy RL

根据Agent是否直接与环境互动进行学习(更新策略或价值函数),可以将强化学习方法分为:在线学习(On-Policy RL)和离线学习(Off-Policy RL)

On-Policy RL需要Agent真实与环境互动,即学习过程中所用到的数据与样本,都是Agent从环境中观测到的。

Off-Policy RL不需要Agent直接与环境互动,即可以通过别的方法获取数据与样本进行学习,不需要Agent直接通过观测环境获得。

On-Policy RLOff-Policy RL
SarsaQ Leaning
Sarsa( λ \lambda λ)Deep Q Network
已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 撸撸猫 设计师:C马雯娟 返回首页