Policy Gradient Methods

Policy Gradient Methods

Policy Gradient Methods In summary, I guess because 1. policy (probability of action) has the style: , 2. obtain (or let’s say ‘math trick’) in the objective function ( i.e., value function )’s gradient equation to get an ‘Expectation’ form for : , assign ‘ln’ to policy before gradient for analysis convenience. pg Notation J(θ):… read more »

Hierarchical Policy Gradient Algorithms

Hierarchical Policy Gradient Algorithms Math Notation M : the overall task MDP. {M0, M1, M2 , M3 , . . . , Mn } : a finite set of subtask MDPs. Mi : subtask, models a subtask in the hierarchy. M0 : root task and solving it solves the entire MDP M. i : non-primitive subtask, paper uses… read more »

Policy Gradient and Q-learning

RL两大类算法的本质区别?(Policy Gradient 和 Q-learning) Q-learning 是一种基于值函数估计的强化学习方法,Policy Gradient是一种策略搜索强化学习方法。两者是求解强化学习问题的不同方法,如果熟悉监督学习,前者可类比Naive Bayes——通过估计后验概率来得到预测,后者可类比SVM——不估计后验概率而直接优化学习目标。 回答问题: 1. 这两种方法的本质上是否是一样的(解空间是否相等)?比如说如果可以收敛到最优解,那么对于同一个问题它们一定会收敛到一样的情况? 两者是不同的求解方法,而解空间(策略空间)不是由求解方法确定的,而是由策略模型确定的。两者可以使用相同的模型,例如相同大小的神经网络,这时它们的解空间是一样的。 Q-learning在离散状态空间中理论上可以收敛到最优策略,但收敛速度可能极慢。在使用函数逼近后(例如使用神经网络策略模型)则不一定。Policy Gradient由于使用梯度方法求解非凸目标,只能收敛到不动点,不能证明收敛到最优策略。 2. 在Karpathy的blog中提到说更多的人更倾向于Policy Gradient,那么它们两种方法之间一些更细节的区别是什么呢? 基于值函数的方法(Q-learning, SARSA等等经典强化学习研究的大部分算法)存在策略退化问题,即值函数估计已经很准确了,但通过值函数得到的策略仍然不是最优。这一现象类似于监督学习中通过后验概率来分类,后验概率估计的精度很高,但得到的分类仍然可能是错的,例如真实正类后验概率为 0.501,如果估计为0.9,虽然差别有0.3,如果估计为0.499,虽然差别只有0.002,但分类确是错的。 尤其是当强化学习使用值函数近似时,策略退化现象非常常见。可见 Tutorial on Reinforcement Learning slides中的例子。 Policy Gradient不会出现策略退化现象,其目标表达更直接,求解方法更现代,还能够直接求解stochastic policy等等优点更加实用。 (3. 有人愿意再对比一下action-critic就更好了(: Actor-Critic 就是在求解策略的同时用值函数进行辅助,用估计的值函数替代采样的reward,提高样本利用率。 ——————— 作者:ForABiggerWorld 来源:CSDN 原文:https://blog.csdn.net/zjucor/article/details/79200630 版权声明:本文为博主原创文章,转载请附上博文链接!  

Policy Gradient

Policy Gradient https://www.jianshu.com/p/af668c5d783d 虽然前段时间稍微了解过Policy Gradient,但后来发现自己对其原理的理解还有诸多模糊之处,于是希望重新梳理一番。 Policy Gradient的基础是强化学习理论,同时我也发现,由于强化学习的术语众多,杂乱的符号容易让我迷失方向,所以对我自己而言,很有必要重新确立一套统一的符号使用习惯。UCL的David Silver可谓是强化学习领域数一数二的专家(AlphaGo首席研究员),他的课程在网上也大受欢迎,因此我接下来用于讨论问题的符号体系就以他的课件为准。 Markov Decision Process (MDP) 在概率论和统计学中,Markov Decision Processes (MDP) 提供了一个数学架构模型,刻画的是“如何在部分随机,部分可由决策者控制的状态下进行决策”的过程。强化学习的体系正是构建在MDP之上的。 MDP的定义 有了这样的定义,自然引申出policy和reward的概念: policy的定义 reward的定义 Value function Value function也是MDP中一个非常重要的概念,衡量的是从某个状态开始计算的reward期望值,但容易令初学者混淆的是,value function一般有两种定义方式。 一种叫state-value function: 另一种叫action-value function,会显式地将当前采取的动作纳入考量之中: 从定义上看,两者显然可以互相转换:   另外,如果仔细观察reward的定义 会发现这两种value function其实都可以写成递归的形式: 这又被称为Bellman Equation,把value function分解成了immediate reward加上后续状态的discounted value。 Policy Gradient 强化学习的一类求解算法是直接优化policy,而Policy Gradient就是其中的典型代表。 首先需要讨论一下policy的目标函数。一般而言,policy的目标函数主要有三种形式: 在episodic环境(有终止状态,从起始到终止的模拟过程称为一个episode,系统通过一次次地模拟episode进行学习)中,衡量从起始状态开始计算的value: 在continuing环境(没有终止状态,是一个无限的过程)中,衡量value均值: 不管在哪个环境中,只关注immediate reward,衡量的是每个时刻的平均reward: 以上的 是指状态的概率分布,与policy有关,并且是stationary distribution of Markov chain,意思是这个概率分布不会随着MDP的时间推进而变化。虽然这三种目标函数形式不同,但最后分析得到的梯度表达式都是一样的。 对目标函数求梯度会用到一个很重要的trick,叫likelihood… read more »

Policy Gradient Methods for Reinforcement Learning with Function Approximation

  Policy Gradient Methods for Reinforcement Learning with Function Approximation Math Analysis Markov Decision Processes and Policy Gradient So far in this book almost all the methods have been action-value methods; they learned the values of actions and then selected actions based on their estimated action values; their policies would not even exist without the… read more »

Sidebar