
要約
生成モデルは現在、学習に用いた実際のデータとほとんど区別がつかない写真級の合成データを生成できるようになっている。これは、従来のモデルが学習データの妥当な類似物を生成できたものの、人間による視覚評価によってはそれらが実データと区別可能であったことと比べて、顕著な進化である。最近の分布外(OOD)検出に関する研究では、生成モデルの尤度がOOD検出器として最適ではない可能性が指摘されており、尤度の誤推定、生成プロセスにおけるエントロピー、および典型性(typicality)に関する問題がその理由とされている。我々は、生成モデルに基づくOOD検出器が失敗した理由として、モデルがデータのピクセルレベルに注目するあまり、データの意味的コンテンツに着目できなかったことが挙げられると仮説を立てる。その結果、ピクセル的には類似しているが情報量が著しく異なる「近傍OOD」のケースでは検出に失敗するという問題が生じたと考えられる。そこで、自己教師学習者を用いて典型集合を推定することで、より優れたOOD検出器が得られるのではないかと仮定する。本研究では、表現学習を活用し、多様体推定に基づく情報量豊かな要約統計量を用いる新しいアプローチを提案する。この手法は、前述の諸問題を包括的に解決でき、他の非教師あり手法を上回る性能を発揮し、既存の難易度の高いベンチマークおよび新たな合成データ検出タスクにおいて、最先端の性能を達成した。