
要約
分布外(Out-of-Distribution, OOD)検出は、機械学習モデルを実世界に安全に展開する上で不可欠な要素である。その主な課題の一つは、未知のデータに対してモデルが教師信号を持たないため、OODデータに対して過度に自信のある予測を生成してしまう点にある。最近の異常値合成に関する研究では、特徴空間をパラメトリックなガウス分布としてモデル化するアプローチが採用されてきたが、これは現実には成り立たない可能性がある強い制約付き仮定である。本論文では、人工的なOODトレーニングデータを生成し、ID(分布内)データとOODデータの間の信頼性の高い決定境界の学習を促進する新たなフレームワークである非パラメトリック異常値合成(Non-Parametric Outlier Synthesis, NPOS)を提案する。重要な点として、本研究で提唱する合成手法は、ID埋め込みにいかなる分布仮定も行わないため、高い柔軟性と一般性を有している。また、我々はこの合成アプローチが数学的にリジェクションサンプリング(rejection sampling)の枠組みとして解釈できることを示す。広範な実験により、NPOSが優れたOOD検出性能を達成でき、競合手法と比較して顕著な優位性を示すことを確認した。コードは公開されており、https://github.com/deeplearning-wisc/npos にて入手可能である。