Command Palette
Search for a command to run...
Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

摘要
在安全关键场景中部署强化学习(RL)受到分布外(distribution shift)下模型脆弱性的限制。本文研究了强化学习时间序列的分布外(OOD)检测问题,提出了一种名为DEEDEE的双统计量检测方法。该方法对以往依赖复杂表征的检测流程进行了重新思考,提供了一种极简的替代方案。DEEDEE仅使用每个episode的均值以及与训练数据摘要的RBF核相似性,即可同时捕捉全局与局部的异常偏差。尽管结构极为简洁,DEEDEE在标准强化学习OOD检测基准上表现与现有先进方法相当,甚至在多数任务中实现超越,同时在计算开销上实现600倍的降低(FLOPs与实际运行时间),并相较强基线方法平均提升5%的绝对检测准确率。从概念层面看,我们的结果表明,多种类型的异常往往通过少量低阶统计量在RL轨迹中留下可识别的痕迹,这提示我们:在复杂环境中,OOD检测可建立在一种高度紧凑的统计基础之上。