
リスク感受性の高いタスクに深層ニューラルネットワークを適用する際、訓練データの分布外のラベルを持つインスタンスを検出できる能力が求められる。本論文では、画像分類器が訓練分布に含まれないクラス(すなわち、真のラベルが訓練データに存在しない)のインスタンスを、検出の難易度をさまざまなレベルで評価できる新たなフレームワークを提案する。本手法をImageNetに対して適用し、525種類の公開済みかつ事前学習済みのImageNet-1k分類器をベンチマーク化した。任意のImageNet-1k分類器用のベンチマーク生成コードおよび、上記525モデルに対する事前準備済みベンチマークは、https://github.com/mdabbah/COOD_benchmarking にて公開されている。本フレームワークの有用性および従来の代替ベンチマークとの比較優位性は、これらのモデルに対する評価結果の分析により示された。その結果、以下の新しい知見が得られた:(1)知識蒸留(knowledge distillation)は一貫してクラス分布外(C-OOD)検出性能を向上させる;(2)ViT(Vision Transformer)の一部が、他のすべてのモデルよりも優れたC-OOD検出性能を示す;(3)言語・視覚統合モデルであるCLIPは、ゼロショット設定でも良好な検出性能を達成しており、最も優れたインスタンスは評価対象の96%以上のモデルを上回っている;(4)分類精度および分布内順位(in-distribution ranking)とC-OOD検出性能の間には正の相関が確認された;(5)C-OOD検出に用いるさまざまな信頼度関数(confidence functions)を比較した。本論文の補足論文(ICLR 2023にて発表)である『What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance Of 523 Imagenet Classifiers』では、これらの分類器が分布内設定における不確実性推定性能(順位付け、キャリブレーション、選択的予測性能)についても検討している。