
摘要
深度强化学习在应用于基于视觉的问题(如Atari游戏)时,直接将像素映射到动作;内部,深度神经网络承担着提取有用信息和根据这些信息做出决策的双重责任。通过将图像处理与决策制定分离,可以更好地理解每个任务的复杂性,并且有可能找到更小的策略表示形式,这些表示形式更容易被人类理解,并且可能具有更好的泛化能力。为此,我们提出了一种新的方法,用于在强化学习中分别但同时学习策略和紧凑的状态表示以进行策略近似。状态表示由编码器生成,该编码器基于两种新颖的算法:字典向量量化递增(Increasing Dictionary Vector Quantization)使编码器能够在时间上逐步增加其字典大小,以应对开放式在线学习环境中出现的新观察结果;直接残差稀疏编码(Direct Residuals Sparse Coding)则通过忽略重构误差最小化,而致力于最大化信息包含量来对观察结果进行编码。编码器自主选择在线观察结果进行训练,以最大化代码的稀疏性。随着字典大小的增加,编码器为神经网络产生的输入也逐渐增大:这一问题通过指数自然进化策略算法的一种变体解决,该变体在运行过程中适应其概率分布维度的变化。我们在一系列Atari游戏中测试了我们的系统,使用的神经网络仅有6到18个神经元(具体取决于游戏的控制需求)。尽管如此,这些小型神经网络仍然能够取得与使用两倍数量级更多神经元的最先进技术相当甚至偶尔更优的结果。