1. Introduction
行为策略:指导个体产生与环境进行实际交互行为的策略。
目标策略:评价状态或行为价值的策略或者待优化的策略。
现时策略学习:个体在学习过程中优化的策略与自己的行为策略是同一个策略。
借鉴策略学习:个体在学习过程中优化的策略与自己的行为策略是不同的策略。
2. On-Policy Monte-Carlo Control
在不基于模型的控制时,我们将无法通过分析、比较基于状态的价值来改善贪婪策略,这是因为基于状态价值的贪婪策略的改善需要知晓状态间转移概率。我们无法事先知道这些状态之间在不同行为下的转移概率,因而无法基于状态价值来改善我们的贪婪策略。
2.1 ϵ-Greedy Exploration ϵ- 贪婪策略
2.2 Monte-Carlo Control 现时策略蒙特卡罗控制
现时策略蒙特卡罗控制:通过 ϵ-贪婪策略采样一个或多个完整的状态序列后,平均得出某一状态行为对的价值,并持续进行策略的评估和改善。通常可以在仅得到一个完整状态序列后就进行一次策略迭代以加速迭代过程。
理论基础:
GLIE(greedy in the Limit with Infnite Exploration) :它包含两层意思,一是所有的状态行为对会被无限次探索 ;二是另外随着采样趋向无穷多,策略收敛至一个贪婪策略 。存在如下的定理:GLIE 蒙特卡洛控制能收敛至最优的状态行为价值函数。如果在使用 ϵ-贪婪策略时,能令 ϵ 随采样次数的无限增加而趋向于 0 就符合 GLIE。
流程:
基于给定策略 π,采样第 k 个完整的状态序列 。
对于该状态序列里出现的每一状态行为对
,更新其计数 N 和行为价值函数 Q基于新的行为价值函数 Q 以如下方式改善策略
3. On-Policy Temporal-Difference Learning 现时策略时序差分控制
3.1 Sarsa 算法
Sarsa算法:针对一个状态 S,个体通过行为策略产生一个行为 A,执行该行为进而产生一个状态行为对 (S,A),环境收到个体的行为后会告诉个体即时奖励R 以及后续进入的状态 S’;个体在状态 S’ 时遵循当前的行为策略产生一个新行为 A’,个体此时并不执行该行为,而是通过行为价值函数得到后一个状态行为对 (S’,A’) 的价值,利用这个新的价值和即时奖励 R 来更新前一个状态行为对 (S,A) 的价值。
迭代公式:
当行为策略满足前文所述的GLIE 特性同时学习速率参数 α 满足如下时,Sarsa 算法将收敛至最优策略和最优价值函数。
3.2 Sarsa(λ) 算法
定义 n-步 Q 收获 (Q-return) 为:
4. Off-Policy Learning
4.1 借鉴策略 Q 学习算法
借鉴策略学习 (off-policy learning) 中产生指导自身行为的策略
基于蒙特卡洛的借鉴策略学习目前认为仅有理论上的研究价值,在实际中用处不大。这里主要讲解常用借鉴策略 TD 学习。
借鉴策略 TD 学习中一个典型的行为策略 µ 是基于行为价值函数 Q(s,a),ϵ-贪婪策略,借鉴策略 π 则是基于 Q(s,a) 的完全贪婪策略,这种学习方法称为 Q 学习 (Q learning)。
Q 学习具体的行为价值更新公式:
v1.5.2