[原创] 强化学习里的 horizon 是指什么

learnhard — Sun, 27 Oct 2019 15:05:21 +0000

horizon 这个词在各种强化学习教程里出现的频率不算高，但它也是要了解的一个概念。
先查词典：
n. 地平线；视野；眼界；范围

在强化学习里面，horizon主要取“范围”的含义。也可以理解为一个agent在environment里一步步走下去，在一次交互过程中，总共走过的步数。
举个例子，假设有一个“怎么玩都永远不会死”的游戏（只不过得分有高低罢了），那么把这个玩游戏的过程对应到强化学习领域，它就是一个无限步的概念，即 infinite horizon；反之则是 finite horizon（有限步）的。
在训练强化学习模型的时候，并不是说一个游戏非要玩到挂掉才行，我们也可以限定在一个固定的 horizon 内来计算reward。所以从这个角度来说，horizon 也可以认为是agent的生存时间，当agent的剩余可用步数改变的时候，那么agent的行为可能也就会随之改变。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

horizon – 编码无悔 / Intent & Focused

[原创] 强化学习里的 horizon 是指什么