转载需注明出处:https://www.codelast.com/

DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)是强化学习领域的一种知名算法。
如何理解其中的Deterministic(确定性)这个名词?
通俗地说,对一个状态(state)来说,根据这个state所采取的action有可能是带有随机性的。在两次与environment交互的时候,即使是一模一样的state,所采取的action也有可能不同,这就不是一种“确定性”的策略。
对一种“确定性”的策略来说,只要state相同,它给出的action必然相同。

随机策略: \pi (a|s) = P[a|s]
确定性策略: a = \mu (s)
其中, a 是指action, s 是指state。由上面的简单公式可见,对一个随机策略而言,当处于某个state的时候,采取  a 这个action的可能性并不是100%,而是有一个概率 P 的,就像抽奖一样。而对确定性策略而言,没有概率的影响,输入同样的 s 必然输出同样的 a

exploration(探索性)是训练一个好agent的重要因素,在确定性策略作用下,既然输入某个state一定会输出相同的action,那么在策略上就失去了探索性。为了实现探索性,一个办法是给policy网络的参数添加噪音[1],这就使得同样的state经过了policy网络之后,也有可能输出不同的action。
文章来源:https://www.codelast.com/

  • 参考文献:

[1] Better Exploration with Parameter Noise

[原创] 怎么理解DDPG(Deep Deterministic Policy Gradient)里的Deterministic

发表评论

电子邮件地址不会被公开。 必填项已用*标注