[原创] 强化学习框架 rlpyt：如何同时输出gaussian（高斯）和categorical（类别）的action

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。
本文记录 rlpyt 的一些issue提及的问题以及解决方案。

▶▶ 同时输出gaussian（高斯）和categorical（类别）的action
✔ issue链接：在这里
✔ 问题描述：一般来说，action要么是一个高斯分布（gaussian），要么是一个类别值（categorical），如何能把这二者混合起来，即同时输出gaussian和categorical的action？
✔ 我的理解：gaussian的action，指的是policy network输出的是一个action的概率分布，而不是一个确定的action（例如，有70%的可能选择action 1，有30%的可能选择action 2），此时，我们是按这个概率分布来选择一个具体的action，举个例子，对应到Python程序，你可能会用 np.random.choice(a, size=None, replace=True, p=None) 函数来在一个指定的概率分布上选择一个action，其p参数可以指定概率值。
而categorical的action，指的是policy network输出的是一个确定的action，例如它直接输出的可能是action 1，或action 2，诸如此类，而不是给出action 1，action 2的概率值再让用户去选。
这个issue的目的，就是想实现一种“非常规”的用法，输出的action同时具有这两种性质——我想像不出来应该用什么来举例。
✔ 解决方案：rlpyt 里面有一个 Composite（复合）的action space：

class Composite(Space):

可以分别实现两个action space：一个gaussian的和一个categorical的，再用一个Composite的action space把它们包在里面。和environment交互的action space，就是这个Composite的action space了。
文章来源：https://www.codelast.com/
但是要注意，algorithm（例如PPO）是不支持Composite的action space的，所以还需要对algorithm类再做一点改造：另外定义一个 distribution 类，它能根据Composite的action算出其 log probability。还是以PPO为例，它使用 self.agent.distribution 来对action space进行action的选取，此时要用自定义的 distribution 类来替换掉这个distribution，然后就OK了。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

wechat qrcode of codelast

发表评论 取消回复

发表评论取消回复