[原创] 怎么理解DDPG(Deep Deterministic Policy Gradient)里的Deterministic

learnhard — Sun, 29 Sep 2019 07:20:36 +0000

DDPG（Deep Deterministic Policy Gradient，深度确定性策略梯度）是强化学习领域的一种知名算法。
如何理解其中的Deterministic（确定性）这个名词？
通俗地说，对一个状态(state)来说，根据这个state所采取的action有可能是带有随机性的。在两次与environment交互的时候，即使是一模一样的state，所采取的action也有可能不同，这就不是一种“确定性”的策略。
对一种“确定性”的策略来说，只要state相同，它给出的action必然相同。

随机策略： $\pi (a|s) = P[a|s]$
确定性策略： $a = \mu (s)$
其中， $a$ 是指action， $s$ 是指state。由上面的简单公式可见，对一个随机策略而言，当处于某个state的时候，采取 $a$ 这个action的可能性并不是100%，而是有一个概率 $P$ 的，就像抽奖一样。而对确定性策略而言，没有概率的影响，输入同样的 $s$ 必然输出同样的 $a$ 。

exploration（探索性）是训练一个好agent的重要因素，在确定性策略作用下，既然输入某个state一定会输出相同的action，那么在策略上就失去了探索性。为了实现探索性，一个办法是给policy网络的参数添加噪音^[1]，这就使得同样的state经过了policy网络之后，也有可能输出不同的action。
文章来源：https://www.codelast.com/

参考文献：

[1] Better Exploration with Parameter Noise

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

Deep Deterministic Policy Gradient – 编码无悔 / Intent & Focused

[原创] 怎么理解DDPG(Deep Deterministic Policy Gradient)里的Deterministic