
要約
本稿では、オープンボリュームオブジェクト検出(OVD)における画像レベルおよび領域レベルの表現を同時に学習可能な画像・テキスト事前学習手法として、対照的特徴マスキングビジョントランスフォーマー(CFM-ViT)を提案する。本手法は、マスクされた自己符号化器(MAE)の目的関数を対照学習の目的関数と統合することで、位置推定タスクに対する表現力を向上させる。従来のMAEとは異なり、本手法はピクセル空間ではなく、画像とテキストの統合埋め込み空間で再構成を行う。このアプローチにより、モデルは領域レベルの意味情報をより効果的に学習できる。さらに、事前学習時に位置埋め込みをランダムにドロップアウトする「位置埋め込みドロップアウト(PED)」を導入し、事前学習と検出ファインチューニングにおけるスケール変動に対処する。PEDは検出性能を向上させるとともに、ファインチューニング中にオープンボリューム知識の忘れを防ぐために、固定されたViTバックボーンを領域分類器として利用可能にする。LVISオープンボリューム検出ベンチマークにおいて、CFM-ViTは33.9 AP$r$という最先端の性能を達成し、既存最良手法を7.6ポイント上回り、ゼロショット検出転移性能も優れている。さらに、CFM-ViTは強力な画像レベル表現を獲得しており、ゼロショット画像・テキスト検索ベンチマークの12項目中8項目において、既存の最先端手法を上回る結果を示した。