Actor-Critic Algorithms Math Analysis Methods that learn approximations to both policy and value functions are often called actor–critic methods, where ‘actor’ is a reference to the learned policy, and ‘critic’ refers to the learned value function, usually a state-value function. 这篇论文提出和分析了一类actor–critic算法,用于一参数化系列的随机平稳策略的马尔可夫决策过程(MDP)的基于仿真的优化。 Critic : 一个线性近似架构的TD学习, value function。 Actor : 使用Critic提供的信息,在一个近似梯度方向更新。决策, policy。 大多数强化学习和神经动态编程方法主要属于以下两类中的一类: (a)Actor-only,一系列参数化的策略。性能梯度,对于actor参数的偏导,在提高方向上更新参数。可能的缺点是梯度估计者可能有大偏差,而且,策略改变后,新策略估计与过去估计无关,所以,没有“学习”,也就是没有积累和固化老信息。 (b)Critic-only,只依赖近似值函数,目的是学习Bellman公式的近似解,即希望规定一个近-优化的策略。这个方法不是在策略空间直接优化。这个方法可能可以找到值函数的“好的“近似函数,但是在结果策略的近-优化方面缺乏可信度。 Actor–critic方法结合了actor-only和critic-only的优点。Critic使用一个近似架构和仿真学习值函数,然后用来在性能提高方向上更新actor策略参数,这个方法是基于梯度,可以得到希望的收敛特性,critic-only只有在非常有限的设置才能保证收敛。对比actor-only方法,这种方法能更快地收敛,因为偏差降低了。 这篇论文提出actor-critic… read more »