
要約
機械学習システムを展開する際、異常な入力の検出は重要です。深層学習では、より大規模で複雑な入力の使用が、異常値と分布内例を区別する難易度を高めています。一方で、多様な画像やテキストデータが大量に利用可能です。本研究では、これらのデータを活用し、異常検出器を補助的な外れ値データセットに対して訓練することで深層異常検出の性能向上を目指す手法を提案します。このアプローチを「Outlier Exposure(OE)」と呼びます。これにより、異常検出器は未見の異常値も検出できるようになります。自然言語処理や小規模・大規模視覚タスクにおける広範な実験において、Outlier Exposureが検出性能を大幅に向上させることを見出しました。また、CIFAR-10で訓練された最先端の生成モデルがSVHN画像に対してCIFAR-10画像よりも高い尤度を与える可能性があることを観察しました;この問題に対処するためにOEを使用しています。さらに、Outlier Exposureの柔軟性と堅牢性を分析し、性能向上に寄与する補助的なデータセットの特性を特定しました。