
要約
開発された世界に展開される機械学習システムにおいて、分布外(OOD)サンプルの認識は極めて重要である。現在の大多数のOOD検出手法は、単一モダリティ(例えば視覚または言語)に依拠しており、マルチモーダル表現に内在する豊富な情報が活用されていない状況にある。近年の視覚・言語事前学習の成功に触発され、本論文では単一モダリティからマルチモーダルな枠組みへとOOD検出のアプローチを拡張する。特に、視覚特徴とテキスト的コンセプトを一致させるアプローチに基づく、シンプルでありながら効果的なゼロショットOOD検出手法であるMaximum Concept Matching(MCM)を提案する。本研究では、MCMの有効性に関する包括的な分析と理論的洞察を提供する。広範な実験により、MCMが多様な現実世界のタスクにおいて優れた性能を発揮することを示した。特に、意味的に類似したクラスを含む難易度の高いOODタスクにおいて、視覚・言語特徴を用いたMCMは、純粋な視覚特徴を用いる一般的なベースラインよりも13.1%(AUROC)高い性能を達成した。コードは以下のURLで公開されている:https://github.com/deeplearning-wisc/MCM。