RL

Policy Gradient

Policy Gradient https://www.jianshu.com/p/af668c5d783d 虽然前段时间稍微了解过Policy Gradient,但后来发现自己对其原理的理解还有诸多模糊之处,于是希望重新梳理一番。 Policy Gradient的基础是强化学习理论,同时我也发现,由于强化学习的术语众多,杂乱的符号容易让我迷失方向,所以对我自己而言,很有必要重新确立一套统一的符号使用习惯。UCL的David Silver可谓是强化学习领域数一数二的专家(AlphaGo首席研究员),他的课程在网上也大受欢迎,因此我接下来用于讨论问题的符号体系就以他的课件为准。 Markov Decision Process (MDP) 在概率论和统计学中,Markov Decision Processes (MDP) 提供了一个数学架构模型,刻画的是“如何在部分随机,部分可由决策者控制的状态下进行决策”的过程。强化学习的体系正是构建在MDP之上的。 MDP的定义 有了这样的定义,自然引申出policy和reward的概念: policy的定义 reward的定义 Value function Value function也是MDP中一个非常重要的概念,衡量的是从某个状态开始计算的reward期望值,但容易令初学者混淆的是,value function一般有两种定义方式。 一种叫state-value function: 另一种叫action-value function,会显式地将当前采取的动作纳入考量之中: 从定义上看,两者显然可以互相转换:   另外,如果仔细观察reward的定义 会发现这两种value function其实都可以写成递归的形式: 这又被称为Bellman Equation,把value function分解成了immediate reward加上后续状态的discounted value。 Policy Gradient 强化学习的一类求解算法是直接优化policy,而Policy Gradient就是其中的典型代表。 首先需要讨论一下policy的目标函数。一般而言,policy的目标函数主要有三种形式: 在episodic环境(有终止状态,从起始到终止的模拟过程称为一个episode,系统通过一次次地模拟episode进行学习)中,衡量从起始状态开始计算的value: 在continuing环境(没有终止状态,是一个无限的过程)中,衡量value均值: 不管在哪个环境中,只关注immediate reward,衡量的是每个时刻的平均reward: 以上的 是指状态的概率分布,与policy有关,并且是stationary distribution of Markov chain,意思是这个概率分布不会随着MDP的时间推进而变化。虽然这三种目标函数形式不同,但最后分析得到的梯度表达式都是一样的。 对目标函数求梯度会用到一个很重要的trick,叫likelihood… read more »

Actor-Critic Algorithms

Actor-Critic Algorithms Math Analysis Methods that learn approximations to both policy and value functions are often called actor–critic methods, where ‘actor’ is a reference to the learned policy, and ‘critic’ refers to the learned value function, usually a state-value function. 这篇论文提出和分析了一类actor–critic算法,用于一参数化系列的随机平稳策略的马尔可夫决策过程(MDP)的基于仿真的优化。 Critic : 一个线性近似架构的TD学习, value function。 Actor : 使用Critic提供的信息,在一个近似梯度方向更新。决策, policy。 大多数强化学习和神经动态编程方法主要属于以下两类中的一类: (a)Actor-only,一系列参数化的策略。性能梯度,对于actor参数的偏导,在提高方向上更新参数。可能的缺点是梯度估计者可能有大偏差,而且,策略改变后,新策略估计与过去估计无关,所以,没有“学习”,也就是没有积累和固化老信息。 (b)Critic-only,只依赖近似值函数,目的是学习Bellman公式的近似解,即希望规定一个近-优化的策略。这个方法不是在策略空间直接优化。这个方法可能可以找到值函数的“好的“近似函数,但是在结果策略的近-优化方面缺乏可信度。 Actor–critic方法结合了actor-only和critic-only的优点。Critic使用一个近似架构和仿真学习值函数,然后用来在性能提高方向上更新actor策略参数,这个方法是基于梯度,可以得到希望的收敛特性,critic-only只有在非常有限的设置才能保证收敛。对比actor-only方法,这种方法能更快地收敛,因为偏差降低了。 这篇论文提出actor-critic… read more »

Policy Gradient Methods for Reinforcement Learning with Function Approximation

  Policy Gradient Methods for Reinforcement Learning with Function Approximation Math Analysis Markov Decision Processes and Policy Gradient So far in this book almost all the methods have been action-value methods; they learned the values of actions and then selected actions based on their estimated action values; their policies would not even exist without the… read more »

Metric spaces

Metric spaces 度量空间 及相关的一些知识点 Definition 6.1.5 (Convergence of sequences). Let ε > 0 be a real number, and let L be a real number. A sequence  of real numbers is said to be ε-close to L iff an is ε-close to L for every n ≥ N, i.e., we have |an − L| ≤ ε… read more »

Reinforcement Learning with Soft State Aggregation

Reinforcement Learning with Soft State Aggregation Math Analysis – Present A New Approach Based On Bayes’ Theorem: Apply Clustering π Rather than State Lookup Table for Computing Q Value Problem Definition and Summary of Notation We consider the problem of solving large Markovian decision processes (MDPs) using RL algorithms and compact function approximation. The objective is to maximize… read more »

Sidebar



×

Google Scholar