Command Palette
Search for a command to run...
Tala Aljaafari Varun Kanade Philip Torr Christian Schroeder de Witt

要約
安全確保が求められる環境における強化学習(RL)の適用は、分布シフト下での脆弱性によって制限されている。本研究では、RL時系列における分布外(OOD)検出に焦点を当て、表現重視型のパイプラインを見直し、最小限の代替手法としてDEEDEEを提案する。DEEDEEは、エピソード単位の平均値と訓練データ要約とのRBFカーネル類似度という2つの統計量のみを用いて、グローバルかつローカルな逸脱を補完的に捉える。構造の単純さにもかかわらず、標準的なRL-OODベンチマークにおいて、最新の検出手法と同等またはそれを上回る性能を達成し、計算量(FLOPs/実行時間)を600倍削減するとともに、強力なベースラインに対して平均5%の絶対的な精度向上を実現した。概念的に本研究の結果は、多様な異常パターンがRL軌道に低次の統計量の少数にのみ印を残す傾向があることを示しており、複雑な環境におけるOOD検出のためのコンパクトな基盤が存在する可能性を示唆している。