Algorithm – 第 2 页 – 编码无悔 / Intent & Focused

[原创] 强化学习框架 rlpyt 源码分析：(7) 模型参数是在哪更新的

2020 年 04 月 28 日2020 年 01 月 09 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

[原创] 强化学习框架 rlpyt 并行(parallelism)原理初探

2020 年 04 月 28 日2019 年 12 月 23 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。

在单机上全面的并行（Parallelism）特性是 rlpyt 有别于很多其他强化学习框架的一个显著特征。在前面的简介文章中，已经介绍了 rlpyt 支持多种场景下的并行训练。而这种“武功”是怎么修炼出来的呢？它是站在了巨人的肩膀上——通过PyTorch的多进程(multiprocessing)机制来实现的。
所以你知道为什么 rlpyt 不使用TensorFlow这样的框架来作为后端了吧，因为TensorFlow根本就没有这种功能。TensorFlow只能靠类似于Ray这样的并行计算框架的帮助，才能支撑起全方位的并行特性。

[原创] 强化学习的Atari环境下的frame skipping(跳帧)是指什么

2020 年 04 月 28 日2019 年 12 月 15 日作者 learnhard

查看更多强化学习的文章请点击这里。

Atari是强化学习领域最常用的一个游戏实验环境，在很多文章以及代码中，会看到frame skipping（跳帧）这个概念，那么它到底是指什么呢？

[原创] 强化学习框架 rlpyt：如何使用预训练(pre-trained)的model

2020 年 04 月 28 日2019 年 12 月 11 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。
本文描述了在 rlpyt 框架下，如何使用一个预训练过的（pre-trained）model作为起点，来训练自己的RL模型的过程。

[原创] 强化学习框架 rlpyt：如何保存训练过程中的所有model

2020 年 04 月 28 日2019 年 12 月 11 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。
本文描述了如何保存迭代训练过程的所有model，以及背后的逻辑。

[原创] 强化学习框架 rlpyt：如何同时输出gaussian（高斯）和categorical（类别）的action

2020 年 04 月 28 日2019 年 12 月 11 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。
本文记录 rlpyt 的一些issue提及的问题以及解决方案。

[原创] 强化学习框架 rlpyt 源码分析：(6) 模型指标什么时候从 nan 变成有意义的值

2020 年 04 月 28 日2019 年 12 月 08 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

▶▶ 观察训练日志引出的问题
以 example_1 为例，在训练的过程中，程序会不断打印出类似于下面的日志（部分内容）：

[原创] 强化学习框架 rlpyt 源码分析：(5) 提供额外参数的Mixin类

2020 年 04 月 28 日2019 年 12 月 01 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

▶▶ Mixin类简介
rlpyt 里面有大量的 *Mixin 类，例如 AtariMixin，MujocoMixin，RecurrentAgentMixin 等，作者并没有为这些名字很怪的class写任何注释，仅从使用的地方来看，很多Mixin类都与agent类有关联。

[原创] 强化学习框架 rlpyt 源码分析：(3) 相当简洁又十分巧妙的EpsilonGreedy类

2020 年 04 月 28 日2019 年 11 月 22 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

[原创] 强化学习框架 rlpyt 源码分析：(4) 收集训练数据的sampler类

2020 年 04 月 28 日2019 年 11 月 22 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

▶▶ sampler的主要功能
训练强化学习模型需要训练数据，收集训练数据的工作就是由sampler类做的。
收集训练数据，就需要在environment中步进，因此environment的实例化工作也在sampler中完成。

[原创] PyTorch模型的两种保存方法

2020 年 04 月 28 日2019 年 11 月 19 日作者 learnhard

根据PyTorch文档，在把PyTorch模型保存成文件的时候有两种方法，第一种是推荐的：

torch.save(the_model.state_dict(), PATH)

对应地，加载模型这样做：

the_model = TheModelClass(*args, **kwargs)
the_model.load_state_dict(torch.load(PATH))

[原创] 强化学习(Reinforcement Learning)文章合集

2025 年 01 月 19 日2019 年 11 月 17 日作者 learnhard

强化学习是一种机器学习范式，通常用于让机器自主进行决策和学习。以下是一些强化学习的应用：

1. 游戏AI：使用强化学习算法训练游戏AI，在玩家水平越来越高的时候，AI能够逐渐提高自己的技能。

2. 机器人控制：对于一个机器人而言，强化学习可以帮助它在不同的任务下找到最优解决方案，如自主驾驶车辆、无人机控制、工厂物流等。

3. 资源管理：例如电力系统、水资源等，这些领域都需要有效的调度和分配资源，在这些领域应用强化学习可以帮助实现更优秀的效果。

4. 自然语言处理：通过基于强化学习算法训练模型，可以使计算机更好地理解自然语言，并根据上下文做出正确的回答或者翻译。

下面这些文章，是我根据学习总结下来的一些知识，希望能帮助有需要的人。

✍怎么理解DDPG(Deep Deterministic Policy Gradient)里的Deterministic

✍强化学习里的 on-policy 和 off-policy 的区别

✍关于Google的开源强化学习框架Dopamine，不建议上车

✍伯克利人工智能研究所的开源[强化学习框架] rlpyt，让人眼前一亮

[原创] 强化学习框架 rlpyt 源码分析：(2) 掌管训练流程的runner类

2020 年 04 月 28 日2019 年 11 月 17 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

[原创] 强化学习框架 rlpyt 源码分析：(1) 随处可见的Python可变参数

2020 年 04 月 28 日2019 年 11 月 15 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。如果你想用这个框架来开发自己的强化学习程序（尤其是那些不属于Atari游戏领域的强化学习程序），那么需要对它的源码有一定的了解。本文尝试从 rlpyt 自带的一个实例来分析它的部分源码，希望能帮助到一小部分人。
要先声明一下：rlpyt 的源码比较复杂，想要充分理解全部模块需要下很大的功夫，本系列“源码分析”文章，并没有把 rlpyt 的源码全部分析一遍，而只是分析了它的“冰山一角”，主要目的是让读者能了解它的基本结构及基本运作方式。

[原创] 强化学习框架 rlpyt 源码分析：前言

2020 年 04 月 28 日2019 年 11 月 14 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。