
摘要
近年来,离策略深度强化学习(Deep Reinforcement Learning, RL)的进展在基于视觉观测的复杂任务中取得了显著成果。经验回放(Experience Replay)通过重用历史经验提升了样本效率,卷积神经网络(Convolutional Neural Networks, CNNs)则能够高效处理高维输入数据。然而,这些技术对内存和计算带宽的需求较高。本文提出了一种名为“高效强化学习的存储嵌入”(Stored Embeddings for Efficient Reinforcement Learning, SEER)的简单改进方法,旨在缓解现有离策略RL方法在计算与内存方面的负担。为降低CNN网络中梯度更新的计算开销,我们在训练初期即冻结CNN编码器的底层网络层,这一策略基于观察到其参数在训练早期便已收敛。此外,为减少内存占用,我们改用低维隐状态向量(latent vectors)而非高维图像数据进行经验回放,从而实现对回放缓冲区容量的自适应扩展,该特性在内存受限的场景中尤为有益。在一系列DeepMind Control环境和Atari游戏上的实验结果表明,SEER在不损害强化学习智能体性能的前提下,显著降低了计算成本与内存消耗,展现出优异的效率优势。