[原创] 强化学习框架 rlpyt 安装及试跑 – 编码无悔 / Intent & Focused

查看关于 rlpyt 的更多文章请点击这里。

之前我写了一篇强化学习框架 rlpyt 的简介。通常，刚接触一个框架，在安装好它之后，一般都是要先把它的一个最简单的demo跑起来看看会不会有什么问题。所以在本文中继续讲一下安装以及试运行的过程。

▶ 安装
安装其实很简单，在 rlpyt 的GitHub主页上已经写得非常清楚。这里重复一遍：
✎ 拷贝代码到本地

git clone https://github.com/astooke/rlpyt.git

✎ 使用Anaconda安装 rlpyt（在这个过程中会安装其依赖的PyTorch）

cd rlpyt
conda env create -f linux_[cpu|cuda9|cuda10].yml

rlpyt 目录下有4个配置文件：linux_cpu.yml，linux_cuda10.yml，linux_cuda9.yml，macos_cpu.yml，取决于你要安装 rlpyt 的目标OS是什么系统，以及是否有GPU，以及CUDA的版本（使用 nvidia-smi 可以查看 CUDA Version），从而选择对应的配置文件。
另外：
✔ .yml 文件里的 Python版本定义的是 3.7，如果习惯用 3.6，改成3.6也可以。
✔ macos_cpu.yml 里的PyTorch没有定义版本，可以指定成 1.2。
✔ 如果执行 conda env create xxx 命令的时候提示“Segmentation fault”错误，可以先用 conda clean -a 命令清理，再重新执行一次应该就OK了。
文章来源：https://www.codelast.com/
▶ 试跑
✎ 切换到刚安装的Anaconda环境

source activate rlpyt

✎ 设置 PYTHONPATH 环境变量

export PYTHONPATH=path_to_rlpyt:$PYTHONPATH

其中，path_to_rlpyt 是git clone到本地的 rlpyt 的根目录路径。
文章来源：https://www.codelast.com/
✎ 选择一个最简单的例子来跑
examples/ 目录下有很多例子，它们是按复杂性来排序的，example_1.py 最简单，因此可以选择跑这个例子。注意 atari_dqn_async_*.py 这几个例子是要有GPU才能跑的，因为async模式只在有GPU的时候才有意义），所以如果你是在没有GPU的个人PC上跑的话，不要跑这几个async example。

cd examples/
python example_1.py

虽然 example_1 是最简单的例子，但偏偏跑它是最有可能失败的，有可能会遇到以下几个问题：
✔ glibc版本问题

ImportError: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by /home/codelast/.anaconda/envs/rlpyt/lib/python3.6/site-packages/torch/lib/libshm.so)

如果你用的是CentOS 6，这个问题是因为：自0.4.1开始，PyTorch的二进制文件不再支持CentOS 6。

可以从源代码编译PyTorch：https://github.com/pytorch/pytorch#from-source，或升级到CentOS 7。
补充一句，查看glibc的版本，可以用命令：ldd --version
文章来源：https://www.codelast.com/
✔ 内存不足问题
如果抛出以下错误：

Traceback (most recent call last):

File "/home/codelast/rlpyt/examples/example_1.py", line 63, in <module>

cuda_idx=args.cuda_idx,

File "/home/codelast/rlpyt/examples/example_1.py", line 50, in build_and_train

runner.train()

File "/home/codelast/rlpyt/rlpyt/runners/minibatch_rl.py", line 229, in train

n_itr = self.startup()

File "/home/codelast/rlpyt/rlpyt/runners/minibatch_rl.py", line 75, in startup

rank=rank,

File "/home/codelast/rlpyt/rlpyt/algos/dqn/dqn.py", line 81, in initialize

self.initialize_replay_buffer(examples, batch_spec)

File "/home/codelast/rlpyt/rlpyt/algos/dqn/dqn.py", line 134, in initialize_replay_buffer

self.replay_buffer = ReplayCls(**replay_kwargs)

File "/home/codelast/rlpyt/rlpyt/replays/frame.py", line 38, in __init__

share_memory=self.async_) # [T+n_frames-1,B,H,W]

File "/home/codelast/rlpyt/rlpyt/utils/buffer.py", line 17, in buffer_from_example

return build_array(example, leading_dims, share_memory)

File "/home/codelast/rlpyt/rlpyt/utils/buffer.py", line 29, in build_array

return constructor(shape=leading_dims + a.shape, dtype=a.dtype)

MemoryError: Unable to allocate array with shape (1000003, 1, 104, 80) and data type uint8

那么是因为你机器上的内存不足以跑这个example。根据上面打印出来的错误，找到 buffer.py 的对应 method：

def build_array(example, leading_dims, share_memory=False):
    a = np.asarray(example)
    if a.dtype == "object":
        raise TypeError("Buffer example value cannot cast as np.dtype==object.")
    constructor = np_mp_array if share_memory else np.zeros
    if not isinstance(leading_dims, (list, tuple)):
        leading_dims = (leading_dims,)
    return constructor(shape=leading_dims + a.shape, dtype=a.dtype)

通过设置断点，会发现在发生错误的时候，constructor 为 np.zeros，而 shape 为 (1000003, 1, 104, 80)，因此，程序想要创建一个 size 为 1000003 * 1 * 104 * 80 的全零矩阵，type 为 uint8，因此，其占用的内存大小为 1000003 * 1 * 104 * 80 / 1024 / 1024 / 1024 = 7.75 GB，而一般的PC上可能根本就分配不出这么大的内存，于是挂了。如果你到一台物理内存有上百GB的机器上去跑可能就会发现毫无问题。
文章来源：https://www.codelast.com/
实际上，这里想要分配的内存超过了允许值，还和Linux系统的配置有关，即所谓的 memory over-commit 配置。memory over-commit意思是操作系统承诺给进程的内存大小超过了实际可用的内存，Linux其实是允许memory over-commit的。
不出意外的话在你的OS上：

cat /proc/sys/vm/overcommit_memory

输出的应该是0，即表示禁用了这个特性。如果你想干点危险的事情，可以打开这个特性：

echo 1 > /proc/sys/vm/overcommit_memory

然后就可以分配大于实际可用的内存给一个进程了。这样做在array是sparse的场景下会有一些用，但你最正确的做法是到内存够大的机器上去跑，而不是打开 memory over-commit！
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

wechat qrcode of codelast

发表评论 取消回复

发表评论取消回复