<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	
	>
<channel>
	<title>
	「[原创] 强化学习(Reinforcement Learning)文章合集」的评论	</title>
	<atom:link href="https://www.codelast.com/%e5%8e%9f%e5%88%9b-%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0reinforcement-learning%e6%96%87%e7%ab%a0%e5%90%88%e9%9b%86/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.codelast.com/%e5%8e%9f%e5%88%9b-%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0reinforcement-learning%e6%96%87%e7%ab%a0%e5%90%88%e9%9b%86/</link>
	<description>最优化之路</description>
	<lastBuildDate>Sun, 19 Jan 2025 03:29:05 +0000</lastBuildDate>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>
	<item>
		<title>
		评论者：learnhard		</title>
		<link>https://www.codelast.com/%e5%8e%9f%e5%88%9b-%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0reinforcement-learning%e6%96%87%e7%ab%a0%e5%90%88%e9%9b%86/comment-page-1/#comment-8697</link>

		<dc:creator><![CDATA[learnhard]]></dc:creator>
		<pubDate>Mon, 30 Nov 2020 04:18:28 +0000</pubDate>
		<guid isPermaLink="false">https://www.codelast.com/?p=10907#comment-8697</guid>

					<description><![CDATA[回复给 &lt;a href=&quot;https://www.codelast.com/%e5%8e%9f%e5%88%9b-%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0reinforcement-learning%e6%96%87%e7%ab%a0%e5%90%88%e9%9b%86/comment-page-1/#comment-8678&quot;&gt;GemHou&lt;/a&gt;。

非Atari环境是指其他的游戏环境，还是指非游戏的、自定义的、自己使用的业务场景的环境？
如果是前者，我没试过，没法给例子。

如果是后者，我有以下的步骤指南：
(1)从example_1.py开始，这个例子使用了DQN，而且它的action space是离散的。最开始我还复制了example_1.py，并修改了必要的部分，以符合我的要求。
(2) 你需要写自己的环境类GemHouEnv，它包含了特征提取的主要逻辑，和奖励函数，以及环境步进(在环境中前进)，还有从环境中获取观测值的函数，以及重置环境的函数，这些你都可以参考atari_env.py来了解详情。
(3)你需要写一个自己的GemHouDqnAgent类，详情可以参考类AtariDqnAgent。
(4)你需要写自己的GemHouMixin类来定义传递给deep model的参数，详情可参考类AtariMixin。
(5)需要自己写GemHouDqnModel类来定义神经网络，它输入一个vector，输出一个vector，详情参考AtariDqnModel。
(6)至于GemHouDqnAgent中使用的DqnAgent类，完全不需要修改，和AtariDqnAgent一样。

我认为主要工作是集中在GemHouEnv上，你不需要写算法代码(rlpyt已经提供了)，你需要做的就是把我上面提到的代码编写出来，然后把它们整合成一个整体。
另外，先从CPU的实现开始，因为GPU的实现似乎比较复杂，会引起更多的调试工作。]]></description>
			<content:encoded><![CDATA[<p>回复给 <a href="https://www.codelast.com/%e5%8e%9f%e5%88%9b-%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0reinforcement-learning%e6%96%87%e7%ab%a0%e5%90%88%e9%9b%86/comment-page-1/#comment-8678">GemHou</a>。</p>
<p>非Atari环境是指其他的游戏环境，还是指非游戏的、自定义的、自己使用的业务场景的环境？<br />
如果是前者，我没试过，没法给例子。</p>
<p>如果是后者，我有以下的步骤指南：<br />
(1)从example_1.py开始，这个例子使用了DQN，而且它的action space是离散的。最开始我还复制了example_1.py，并修改了必要的部分，以符合我的要求。<br />
(2) 你需要写自己的环境类GemHouEnv，它包含了特征提取的主要逻辑，和奖励函数，以及环境步进(在环境中前进)，还有从环境中获取观测值的函数，以及重置环境的函数，这些你都可以参考atari_env.py来了解详情。<br />
(3)你需要写一个自己的GemHouDqnAgent类，详情可以参考类AtariDqnAgent。<br />
(4)你需要写自己的GemHouMixin类来定义传递给deep model的参数，详情可参考类AtariMixin。<br />
(5)需要自己写GemHouDqnModel类来定义神经网络，它输入一个vector，输出一个vector，详情参考AtariDqnModel。<br />
(6)至于GemHouDqnAgent中使用的DqnAgent类，完全不需要修改，和AtariDqnAgent一样。</p>
<p>我认为主要工作是集中在GemHouEnv上，你不需要写算法代码(rlpyt已经提供了)，你需要做的就是把我上面提到的代码编写出来，然后把它们整合成一个整体。<br />
另外，先从CPU的实现开始，因为GPU的实现似乎比较复杂，会引起更多的调试工作。</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		评论者：GemHou		</title>
		<link>https://www.codelast.com/%e5%8e%9f%e5%88%9b-%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0reinforcement-learning%e6%96%87%e7%ab%a0%e5%90%88%e9%9b%86/comment-page-1/#comment-8678</link>

		<dc:creator><![CDATA[GemHou]]></dc:creator>
		<pubDate>Fri, 27 Nov 2020 08:25:58 +0000</pubDate>
		<guid isPermaLink="false">https://www.codelast.com/?p=10907#comment-8678</guid>

					<description><![CDATA[rlpyt確實有點復雜嘞。。。所以請問如果想換成非atari的環境到底該怎麼操作，可以出一篇例子嘛？非常感謝]]></description>
			<content:encoded><![CDATA[<p>rlpyt確實有點復雜嘞。。。所以請問如果想換成非atari的環境到底該怎麼操作，可以出一篇例子嘛？非常感謝</p>
]]></content:encoded>
		
			</item>
	</channel>
</rss>
