转载需注明出处:https://www.codelast.com/

horizon 这个词在各种强化学习教程里出现的频率不算高,但它也是要了解的一个概念。
先查词典:
n. 地平线;视野;眼界;范围

在强化学习里面,horizon主要取“范围”的含义。也可以理解为一个agent在environment里一步步走下去,在一次交互过程中,总共走过的步数。
举个例子,假设有一个“怎么玩都永远不会死”的游戏(只不过得分有高低罢了),那么把这个玩游戏的过程对应到强化学习领域,它就是一个无限步的概念,即 infinite horizon;反之则是 finite horizon(有限步)的。
在训练强化学习模型的时候,并不是说一个游戏非要玩到挂掉才行,我们也可以限定在一个固定的 horizon 内来计算reward。所以从这个角度来说,horizon 也可以认为是agent的生存时间,当agent的剩余可用步数改变的时候,那么agent的行为可能也就会随之改变。

[原创] 强化学习里的 horizon 是指什么
Tagged on:         

发表评论

电子邮件地址不会被公开。 必填项已用*标注