3 个月前

计算机视觉

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

摘要

在安全关键场景中部署强化学习（RL）受到分布外（distribution shift）下模型脆弱性的限制。本文研究了强化学习时间序列的分布外（OOD）检测问题，提出了一种名为DEEDEE的双统计量检测方法。该方法对以往依赖复杂表征的检测流程进行了重新思考，提供了一种极简的替代方案。DEEDEE仅使用每个episode的均值以及与训练数据摘要的RBF核相似性，即可同时捕捉全局与局部的异常偏差。尽管结构极为简洁，DEEDEE在标准强化学习OOD检测基准上表现与现有先进方法相当，甚至在多数任务中实现超越，同时在计算开销上实现600倍的降低（FLOPs与实际运行时间），并相较强基线方法平均提升5%的绝对检测准确率。从概念层面看，我们的结果表明，多种类型的异常往往通过少量低阶统计量在RL轨迹中留下可识别的痕迹，这提示我们：在复杂环境中，OOD检测可建立在一种高度紧凑的统计基础之上。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

计算机视觉

Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

摘要

在安全关键场景中部署强化学习（RL）受到分布外（distribution shift）下模型脆弱性的限制。本文研究了强化学习时间序列的分布外（OOD）检测问题，提出了一种名为DEEDEE的双统计量检测方法。该方法对以往依赖复杂表征的检测流程进行了重新思考，提供了一种极简的替代方案。DEEDEE仅使用每个episode的均值以及与训练数据摘要的RBF核相似性，即可同时捕捉全局与局部的异常偏差。尽管结构极为简洁，DEEDEE在标准强化学习OOD检测基准上表现与现有先进方法相当，甚至在多数任务中实现超越，同时在计算开销上实现600倍的降低（FLOPs与实际运行时间），并相较强基线方法平均提升5%的绝对检测准确率。从概念层面看，我们的结果表明，多种类型的异常往往通过少量低阶统计量在RL轨迹中留下可识别的痕迹，这提示我们：在复杂环境中，OOD检测可建立在一种高度紧凑的统计基础之上。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

DEEDEE：快速且可扩展的分布外动态检测 | 论文 | HyperAI超神经