AI

Hierarchical Actor-Critic

Hierarchical Actor-Critic Download Hierarchical_Actor-Critic Flowchart Terminology Artificial  intelligence Optimization/decision/control a Agent Controller or decision maker b Action Control c Environment System d Reward of a stage (Opposite of) Cost of a stage e Stage value (Opposite of) Cost of a state f Value (or state-value) function (Opposite of) Cost function g Maximizing the value function… read more »

RL Other Useful Reference

RL Other Useful Reference   Function Approximation: FA http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/ AlphaGo_IJCAI AlphaGo-Zurich  

Policy Gradient and Q-learning

RL两大类算法的本质区别?(Policy Gradient 和 Q-learning) Q-learning 是一种基于值函数估计的强化学习方法,Policy Gradient是一种策略搜索强化学习方法。两者是求解强化学习问题的不同方法,如果熟悉监督学习,前者可类比Naive Bayes——通过估计后验概率来得到预测,后者可类比SVM——不估计后验概率而直接优化学习目标。 回答问题: 1. 这两种方法的本质上是否是一样的(解空间是否相等)?比如说如果可以收敛到最优解,那么对于同一个问题它们一定会收敛到一样的情况? 两者是不同的求解方法,而解空间(策略空间)不是由求解方法确定的,而是由策略模型确定的。两者可以使用相同的模型,例如相同大小的神经网络,这时它们的解空间是一样的。 Q-learning在离散状态空间中理论上可以收敛到最优策略,但收敛速度可能极慢。在使用函数逼近后(例如使用神经网络策略模型)则不一定。Policy Gradient由于使用梯度方法求解非凸目标,只能收敛到不动点,不能证明收敛到最优策略。 2. 在Karpathy的blog中提到说更多的人更倾向于Policy Gradient,那么它们两种方法之间一些更细节的区别是什么呢? 基于值函数的方法(Q-learning, SARSA等等经典强化学习研究的大部分算法)存在策略退化问题,即值函数估计已经很准确了,但通过值函数得到的策略仍然不是最优。这一现象类似于监督学习中通过后验概率来分类,后验概率估计的精度很高,但得到的分类仍然可能是错的,例如真实正类后验概率为 0.501,如果估计为0.9,虽然差别有0.3,如果估计为0.499,虽然差别只有0.002,但分类确是错的。 尤其是当强化学习使用值函数近似时,策略退化现象非常常见。可见 Tutorial on Reinforcement Learning slides中的例子。 Policy Gradient不会出现策略退化现象,其目标表达更直接,求解方法更现代,还能够直接求解stochastic policy等等优点更加实用。 (3. 有人愿意再对比一下action-critic就更好了(: Actor-Critic 就是在求解策略的同时用值函数进行辅助,用估计的值函数替代采样的reward,提高样本利用率。 ——————— 作者:ForABiggerWorld 来源:CSDN 原文:https://blog.csdn.net/zjucor/article/details/79200630 版权声明:本文为博主原创文章,转载请附上博文链接!  

Actor-Critic Algorithms

Actor-Critic Algorithms Math Analysis Methods that learn approximations to both policy and value functions are often called actor–critic methods, where ‘actor’ is a reference to the learned policy, and ‘critic’ refers to the learned value function, usually a state-value function. 这篇论文提出和分析了一类actor–critic算法,用于一参数化系列的随机平稳策略的马尔可夫决策过程(MDP)的基于仿真的优化。 Critic : 一个线性近似架构的TD学习, value function。 Actor : 使用Critic提供的信息,在一个近似梯度方向更新。决策, policy。 大多数强化学习和神经动态编程方法主要属于以下两类中的一类: (a)Actor-only,一系列参数化的策略。性能梯度,对于actor参数的偏导,在提高方向上更新参数。可能的缺点是梯度估计者可能有大偏差,而且,策略改变后,新策略估计与过去估计无关,所以,没有“学习”,也就是没有积累和固化老信息。 (b)Critic-only,只依赖近似值函数,目的是学习Bellman公式的近似解,即希望规定一个近-优化的策略。这个方法不是在策略空间直接优化。这个方法可能可以找到值函数的“好的“近似函数,但是在结果策略的近-优化方面缺乏可信度。 Actor–critic方法结合了actor-only和critic-only的优点。Critic使用一个近似架构和仿真学习值函数,然后用来在性能提高方向上更新actor策略参数,这个方法是基于梯度,可以得到希望的收敛特性,critic-only只有在非常有限的设置才能保证收敛。对比actor-only方法,这种方法能更快地收敛,因为偏差降低了。 这篇论文提出actor-critic… read more »

Policy Gradient Methods for Reinforcement Learning with Function Approximation

  Policy Gradient Methods for Reinforcement Learning with Function Approximation Math Analysis Markov Decision Processes and Policy Gradient So far in this book almost all the methods have been action-value methods; they learned the values of actions and then selected actions based on their estimated action values; their policies would not even exist without the… read more »

Why Backpropagation

Why do we use Backpropagation? For example, consider the expression  Fig. 1   Fig. 2 Fig. 3 Fig. 4   In Fig. 4, Backpropagation gives us the derivative of e with respect to every node (c, d) and input variables (a, b), but Forwardpropagation ONLY gives us the derivative of our output with respect to… read more »

AI

How to approach Deeplearning.ai*: If you have not done any machine learning before this, don’t take this course first. The best starting point is Andrew Ng’s original ML course on coursera (https://www.coursera.org/learn/machine-learning) 2. After you complete that course, please try to complete part-1 of Jeremy Howard’s excellent deep learning course (http://course.fast.ai). Jeremy teaches deep learning Top-Down which is essential for… read more »

Sidebar