Actor-Critic Algorithms
Actor-Critic Algorithms
Math Analysis
Methods that learn approximations to both policy and value functions are often called actor–critic methods, where ‘actor’ is a reference to the learned policy, and ‘critic’ refers to the learned value function, usually a state-value function.
这篇论文提出和分析了一类actor–critic算法,用于一参数化系列的随机平稳策略的马尔可夫决策过程(MDP)的基于仿真的优化。
Critic : 一个线性近似架构的TD学习, value function。
Actor : 使用Critic提供的信息,在一个近似梯度方向更新。决策, policy。
大多数强化学习和神经动态编程方法主要属于以下两类中的一类:
(a)Actor-only,一系列参数化的策略。性能梯度,对于actor参数的偏导,在提高方向上更新参数。可能的缺点是梯度估计者可能有大偏差,而且,策略改变后,新策略估计与过去估计无关,所以,没有“学习”,也就是没有积累和固化老信息。
(b)Critic-only,只依赖近似值函数,目的是学习Bellman公式的近似解,即希望规定一个近-优化的策略。这个方法不是在策略空间直接优化。这个方法可能可以找到值函数的“好的“近似函数,但是在结果策略的近-优化方面缺乏可信度。
Actor–critic方法结合了actor-only和critic-only的优点。Critic使用一个近似架构和仿真学习值函数,然后用来在性能提高方向上更新actor策略参数,这个方法是基于梯度,可以得到希望的收敛特性,critic-only只有在非常有限的设置才能保证收敛。对比actor-only方法,这种方法能更快地收敛,因为偏差降低了。
这篇论文提出actor-critic 算法,证明收敛。这算法基于重要的观察。因为actor的需要更新的参数数量相对状态数量来说很小,critic不用计算或近似准确的高维对象的值函数。实际上,critic理想化地计算值函数“投影”到一个低维的子空间,即一组完全由actor参数化决定的“基本函数”所在的子空间。
Download Actor-Critic Algorithms Flowchart
Notation
S : MDP finite state space
A : MDP finite action space
g : S x A → R given cost function
μ : randomized stationary policy (RSP), mapping μ that assigns to each state x a probability distribution over the action space A
: a set of randomized stationary policies
θ : parameter in stationary policy
: probability of taking action u when the state x is encountered under the policy corresponding to θ
: map probability, policy. 在有关 θ 的策略下,状态x,发生动作u的概率。
pxy(u) : probability that the next state is y, given that the current state is x and the current action is u.
{Xn} : sequence of states.
{Xn , Un } : state–action pairs, MDP, S x A.
: Rn valued function
: policy gradient
: map value function
: Markov chains {Xn} and {Xn , Un } stationary probability. 状态平稳分布的概率。
: stationary probability. 在状态平稳分布的情况下,某状态发生动作u的概率。
: average cost function.
: Markov chains {Xn} stationary probability. 状态平稳分布的概率。
: probability of taking action u when the state x is encountered under the policy corresponding to θ
: Markov chains {Xn , Un } stationary probability. 在状态平稳分布的情况下,某状态发生动作u的概率。
: Rn valued function
: policy gradient,这个有关策略梯度的定义很巧妙,它将概率与值函数联系在一起。
: average cost function.
: q-function
: can be viewed as the “disadvantage” of state x, it is the expected excess cost – on top of the average cost – incurred if we start at state x. 作用与MDP值函数,总或打折cost 相似。
Theorem 1
where
内积:
so
范数:
将学习qθ 转化为 qθ 在子空间 投影的学习。 结论:计算“学习”值函数在子空间的投影足够了。
Actor-critic algorithms
我们把Actor-critic算法看成在actor参数空间的随机梯度算法,当actor参数向量是θ,critic的工作就是计算 在子空间的投影的近似值,actor用这个投影的近似值在近似梯度方向更新它的策略。
在这篇论文的算法中,需要改变控制策略control policy与特征向量feature vectors,因为actor更新它的参数。
Critic
论文里面描述了两个actor-critic 算法,区别只在于critic更新的不同。critic是一个TD算法,q-函数的线性参数近似架构:
两个critic方法区别只在于更新zk 方式不同。
TD(1) Critic: Let x* be a state in S.
TD(α) Critic,
Actor
Finally, the actor updates its parameter vector by letting
Convergence of actor-critic algorithms
actor–critic算法是基于梯度,不能证明全局优化策略是收敛的,证明cost 。
因为, 对比critic更新的尺寸,actor的尺寸更新可以忽略不计,所以,当考虑critic的时候,actor是平稳的。也就是说解决了actor-only偏差大的问题。
Policy Gradient vs Q-learning