
摘要
深度强化学习能够在多种任务中学习到有效的策略,但由于其训练过程的不稳定性以及对超参数的高度敏感性,实际应用极为困难。这一问题的根本原因至今尚不明确。在使用标准的监督学习方法(例如用于老虎机问题)时,基于当前策略的数据收集能够提供“硬负样本”(hard negatives),从而在策略可能访问的状态与动作上精确纠正模型。我们称这一现象为“纠正性反馈”(corrective feedback)。本文表明,基于自举(bootstrapping)的Q-learning算法并不必然受益于这种纠正性反馈,仅依靠算法自身收集的经验进行训练,不足以修正Q函数中的误差。事实上,Q-learning及其相关方法可能在智能体收集的经验分布与基于该经验训练所诱导出的策略之间产生病态的相互作用,导致训练过程不稳定、收敛至次优解,或在面对噪声大、稀疏或延迟奖励的情况下表现不佳。我们从理论和实证两个层面验证了这一问题的存在。随后,我们提出一种针对经验分布的特定修正方法,可有效缓解上述问题。基于这些发现,我们提出了一种新算法——DisCor(Distribution Correction),该算法通过近似计算最优经验分布,并利用其对训练过程中的转移样本进行重新加权,显著提升了在一系列具有挑战性的强化学习场景下的性能,包括多任务学习以及从噪声奖励信号中学习等。相关工作摘要的博客文章可访问:https://bair.berkeley.edu/blog/2020/03/16/discor/。