[原创] 强化学习框架 rlpyt：如何使用预训练(pre-trained)的model

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。
本文描述了在 rlpyt 框架下，如何使用一个预训练过的（pre-trained）model作为起点，来训练自己的RL模型的过程。

▶▶ 什么是预训练模型
引用一篇文章：

简单来说，预训练模型(pre-trained model)是前人为了解决类似问题所创造出来的模型。你在解决问题的时候，不用从零开始训练一个新模型，可以从在类似问题中训练过的模型入手。

比如说，如果你想做一辆自动驾驶汽车，可以花数年时间从零开始构建一个性能优良的图像识别算法，也可以从Google在ImageNet数据集上训练得到的inception model(一个预训练模型)起步，来识别图像。

一个预训练模型可能对于你的应用中并不是100%的准确对口，但是它可以为你节省大量功夫。

训练一个强化学习模型也可能会需要消耗大量计算资源，尤其是你手上没有强大算力的时候，靠一台普通电脑去train一个model可能会用掉很长时间，因此，在别人已经train好的model的基础上继续train自己的model是一个好办法。
文章来源：https://www.codelast.com/
▶▶ rlpyt 对预训练模型的支持
以使用 DQN 算法的 example_1 为例，class DQN(RlAlgorithm) 的 __init__() 函数有一个 initial_optim_state_dict 参数：

initial_optim_state_dict=None,

另外，AtariDqnAgent 类的其中一个父类：DqnAgent，它又有一个父类 BaseAgent，在 __init__() 初始化的时候也有一个 initial_model_state_dict 参数：

def __init__(self, ModelCls=None, model_kwargs=None, initial_model_state_dict=None):

这两个地方，就是当你使用预训练模型的时候需要传入的参数。
但为什么会有两个参数？它们有什么区别？
✔ 前一个是Optimizer（优化器，例如 torch.optim.Adam）的 state_dict，其包含的参数有 learning rate 等。
✔ 后一个是model的 state_dict，其包含的参数有 model 的 weight、bias 等。
直观点，来个图（图片可放大）：
pre-trained model
从图中可以清楚地看到model里存储的数据，optimizer_state_dict 就是 Optimizer 的 state_dict，agent_state_dict 就是model的 state_dict。
文章来源：https://www.codelast.com/
▶▶ 代码实操：加载预训练模型
首先我们要有一个预训练模型文件，因此，我们先把没有修改过代码的 example_1 运行一段时间，生成一个 params.pkl 模型文件，假设此文件路径为：/home/codelast/rlpyt/data/local/20191111/example_1/run_0/params.pkl
现在修改 example_1.py，可以加载预训练模型了：

# 加载预训练模型
model_loaded = torch.load('/home/codelast/rlpyt/data/local/20191111/example_1/run_0/params.pkl')
optimizer_state_dict = model_loaded['optimizer_state_dict']
agent_state_dict = model_loaded['agent_state_dict']

algo = DQN(min_steps_learn=1e3, initial_optim_state_dict=optimizer_state_dict)
agent = AtariDqnAgent(initial_model_state_dict=agent_state_dict['model'])

其他代码无需修改，就这么简单！
再重新运行修改过的example，现在就已经是在pre-trained model的基础上继续进行的训练了。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

wechat qrcode of codelast

发表评论 取消回复

发表评论取消回复