RL – 编码无悔 / Intent & Focused

[原创] 总有一天，失业不再遥远

learnhard — Sat, 25 Apr 2020 18:14:12 +0000

尽管人类离[通用人工智能]的路还很远，但越来越多新技术的出现，让这条路得以不断加速。

What？强化学习设计芯片？

就这几天的事：Google已经开始用强化学习技术来设计芯片了！
如果说用强化学习来玩游戏、下围棋，甚至用来帮助提升互联网广告的点击率、收入，都不是什么新鲜事的话，那么用强化学习来设计芯片，就也太新鲜了吧？但Google就做到了^[1]：

我们提出了一种基于学习的芯片布局方法，这是芯片设计过程中最复杂、最耗时的阶段之一。与之前的方法不同，我们的方法具有从过去的经验中学习并随着时间的推移而改进的能力。特别是随着我们对更多的芯片块进行训练，我们的方法在快速生成以前未见过的芯片块的优化布局方面变得更好。为了实现这些结果，我们将芯片布局作为一个强化学习（RL）问题，并训练一个Agent将芯片网表的节点放置到芯片画布上。为了使我们的RL策略能够泛化到未见过的芯片块，我们将表征学习置于预测布局质量的有监督任务中。通过设计一个能够准确预测各种网表及其布局质量的神经架构，我们能够生成丰富的输入网表的特征嵌入。然后，我们使用这个架构作为我们的策略和价值网络的编码器来实现转移学习。我们的目标是将PPA（功率、性能和面积）降到最低，我们表明，在6个小时内，我们的方法可以在现代加速器网表上生成超越人类或可与之相媲美的芯片布局，而现有的基线需要人类专家在循环中进行，并需要几周的时间。

硬件工程师为之虎躯一颤。

这是我今年看到的第二个跟我多少有点关系，并且又让我马上喊出一句“卧槽”的技术应用了。
文章来源：https://www.codelast.com/
在机器学习领域，强化学习可能是目前人类发明的、最接近人类成长过程的机器学习范式了。从婴儿的咿呀学步，到掌握海量知识，人都是在不断接受外界反馈中对自我行为做出修正，而强化学习正是模仿了这一过程。
目前科学家们正在不断拓展强化学习的应用边界，从一开始的相对简单领域，到越来越复杂的工作，都尝试用强化学习来完成。
事实上，在现实世界，真正比较大规模的、普通人摸得着看得见的强化学习应用，还是当属游戏领域的AI玩家，但考虑到游戏受众占总人口数的比例很小，所以客观地说，强化学习并没有像人脸识别、语音识别等机器学习技术一样渗透到民生的方方面面。不过，由于强化学习的可预见潜力很大，我们有理由相信，它会在很多领域代替人类的工作，而这些工作，不是低水平的重复工作，而是需要较高知识储备才能胜任的。
文章来源：https://www.codelast.com/

米娜？你真的可以无障碍聊天？

还是Google，在今年1月的时候发布了一个聊天机器人：Meena^[2]（“米娜”？）。当然，说是发布，其实并没有公开地提供这个服务，也没有App提供下载，Google只是发了篇论文说他们达到了什么样的技术成果。
这个Meena有多牛呢？
举个大家生活中随处可见的例子：无论你是在京东淘宝上购物的时候在线咨询，还是在打各种客服电话的时候接线的是个“机器人”，可能都会很容易遇到这样一种情况：只要问题问得不是那么直接，那些“聊天机器人”就不知道怎么回答了。
再比如，我家里有一个“小爱同学”（小米的智能音箱），我问她“明天的天气怎么样”，她能完美回答我；但如果我用和人类随意聊天的方式来和她对话，她马上就会进入懵逼状态：“哎呀，你说的这个问题小爱不懂”。
理想和现实的差距，就是人类和市面上所有聊天机器人的差距。
而Google的Meena是一个“开放领域聊天机器人”。开放领域聊天机器人不会仅限于在某个特定领域，而是能够和用户聊近乎所有的话题——这不就是人类的正常表现嘛。
文章来源：https://www.codelast.com/

Meena是一个有着26亿参数的端到端神经对话模型，也就是GPT-2模型最大版本（15 亿参数）的1.7倍。通过实验可以看到，Meena 比现有的 SOTA 聊天机器人能够更好地完成对话，对话内容显得更为具体、清楚。

Google也给出了一些实例，用来说明Meena与人类的对话有多自然。
如果Meena真能达到真人水平，那她一定是我做梦都想拥有的一个chatbot。
我现在每周都在Cambly上和外国人聊天练口语，我当然想把这钱省下来，我曾经也找过英语的chatbot，但没有什么好的结果，在语言学习方面，和人类交流目前还是具有不可替代性。我可以和外国人聊新冠疫情的近况，聊时事政治的发展，但是我和一个chatbot讲这些，它可能当我是傻子（其实它才是傻子）。
所以，如果有一个像Meena那样的chatbot可以和我在开放领域以人类水平用英语聊天，那我真要笑开了花！
文章来源：https://www.codelast.com/

有生之年的期盼

随着技术的发展，在我有生之年，我一定会看到很多本来“不可替代”的人类，会因为技术的发展而失业，这当中，或许就包含了我这样的工程师。而技术的目标之一就是节省更大的成本，我也相信在未来几十年，AI在语言学习上一定可以代替人类，和学生进行几乎无障碍的交流对话。
文章来源：https://www.codelast.com/

链接

[1] https://ai.googleblog.com/2020/04/chip-design-with-deep-reinforcement.html
[2] https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 强化学习里的 on-policy 和 off-policy 的区别

learnhard — Mon, 30 Sep 2019 03:12:24 +0000

强化学习（Reinforcement Learning，简称RL）是机器学习的一个领域，刚接触的时候，大多数人可能会被它的应用领域领域所吸引，觉得非常有意思，比如用来训练AI玩游戏，用来让机器人学会做某些事情，等等，但是当你越往里看，就会发现跟传统机器学习相比，RL里面的名词简直太多了吧！多到完全可以绕晕人。比如RL里经常会提到的agent，environment，episode（rollout），policy，on-policy，off-policy，state，trajectory，reward，replay buffer，model-based，model-free，MD，TD，PG，AC，等等。强化学习的高手对这些词很熟悉，但对新手来说可能就很痛苦。
在RL领域，on-policy和off-policy是两个非常重要的概念，这两个词，把RL方法分成了两个类别。你可以从网上搜到很多很人提问on-policy的强化学习方法和off-policy的强化学习方法有什么区别，作为一个智商相当平庸的人，鬼知道我当初看了多少教程才认为自己大概搞清楚了它们之间的区别。
所以我在这篇文章里想把自己的肤浅理解分享出来，希望能帮助到少部分人。

由于自己的知识有限，可能会出现错误，请见谅。

中文含义

我见过的 on-policy/off-policy 的中文翻译有：同策略/异策略，在线策略/离线策略，光看这些名字真的会迷惑人，所以不要试图去用中文来理解它们的区别。
文章来源：https://www.codelast.com/

关键区别

这二者之间的区别，不在于选择action的方式，而在于更新网络参数的数据的收集方式。参考Reddit上的这个讨论。
理论上来说，on-policy的算法只能使用当前正在优化的policy生成的数据来进行训练，当你使用一条(state, action, reward, new_state)的数据对policy网络的参数进行了更新之后，这个“正在优化”的policy立即就变了，于是，你就要用它来生成新的一条数据，再继续进行后面的训练，并且你刚才用于训练的那条数据已经“过时”了，不能再使用，需要丢弃掉。
有人会说这种做法是不是太低效了？于是在实践中，经常是每收集了N条数据才会去更新一次，这N条数据是一个batch，并且这N条数据是用同一个policy生成的。
有人还会说，这好像不对啊？！理论上，用当前的policy生成了一条数据，就应该更新一次policy网络的参数，然后policy网络就变了，此时才能再生成第2条数据，依此类推，当生成到第N条数据的时候，policy网络都不知道变成什么鬼样子了，而如果我们用同一个policy连续生成N条数据才去更新一次policy网络的参数，这时的policy网络能跟一条条更新方式相比吗？确实，这两种方式表面上看起来policy相差会很大，但是，有其他的一些技术可以从数学上保证、并且也从实际效果上证明了：每N条数据才更新一次policy网络的方式，和每一条数据就更新一次policy网络的方式，没有多大区别，可行！
正因为这二者没有多大区别，我们仍然可以把每N条数据才更新一次policy网络、看似用“已经过时”的数据来更新policy网络的方法，叫做on-policy的方法——尽管它在实践操作的时候，看上去非常像off-policy的方法。
我用一个不专业的方法来描述一下：纯粹的on-policy的方法，就像是一个在不停跑步的人，他的姿态永远都在根据当前个人的身体状况调整改变，而每N条数据更新一次policy网络的方法，他只是看上去像off-policy的，但它实际上并没有真的“off”（完全落后跟不上），他只是看上去像是反射弧慢了一点，跑几百步就停下来歇一会儿，然后根据个人的身体状况，在接下来的那一段路程里，再用完全一致的姿态继续跑完（在这一段里不改变姿态）。
文章来源：https://www.codelast.com/

Behavior Policy 和 Target Policy / Update Policy

在一些介绍 on-policy / off-policy 区别的文章中，会看到用 behavior policy（行为策略）和 target policy（目标策略）的概念来解释 on-policy / off-policy 之间的区别，至于 update policy，提到这个概念的文章并不算多，比如这篇文章，我觉得大家就按 target policy 来理解就好了。
behavior policy 是指与environment互动生成training data的策略，target policy 是指你用training data不断去更新、优化，最终要拿去用的那个策略。为什么要搞出这两个概念？其实对于 on-policy 的算法来说，这两样根本就是一个东西！也就是说，我们用于生成training data的behavior policy，在生成了一条training data之后，马上就会被更新（现在你可以把它叫做target policy了，所处的位置不同，名称也不同），所以在 on-policy 算法中它俩其实是一回事。
文章来源：https://www.codelast.com/

最容易把人搞疯的例子：PPO

PPO（Proximal Policy Optimization，近端策略优化）是当前在强化学习领域内，用于离散动作控制的最知名的算法之一（来自于OpenAI）。这玩意让人费解的地方在于，你会看到无数篇文章，这一篇讲它是on-policy的算法，另一篇讲它是off-policy的算法，而且看似各有各的说法各有各的道理。作为一个知识储备还不够多的人来说，很难判断谁对谁错。
我随便举几个网上搜到的例子：
（1）说PPO是on-policy的文章有：
https://www.zhihu.com/question/321713509
https://github.com/openai/baselines/issues/316
（2）说PPO是off-policy的文章有：
https://blog.csdn.net/qq_30615903/article/details/86308045
https://zhuanlan.zhihu.com/p/39624504（在这篇文章的评论里，有网友提出了质疑，认为PPO是on-policy的）
文章来源：https://www.codelast.com/
这些文章，很多充满了大量的数学公式，非常像样，作为一个初学者，恐怕原来有自己的想法，看了这些文章之后可能也会怀疑人生。
在上面的GitHub链接中，OpenAI的research scientist Matthias Plappert给了一个明确的说法：PPO是一种on-policy的算法。由于PPO就是OpenAI发明的，因此信他没错。

To clarify: PPO is an on-policy algorithm so you are correct that going over the same data multiple times is technically incorrect.

However, we found that PPO is actually quite okay with doing this and we still get stable convergence. This is likely due to the proximal trust region constrained that we enforce, which means that the policy cannot change that much anyway when going over the current set of transitions multiple times, making it still approximately on-policy. You can of course get rid of this but then you'll need more samples.

所以PPO算是一种“近似的”on-policy算法。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：