記述された物体検出:柔軟な表現による物体検出の解放

言語情報に基づく物体検出は、オープンボキャブラリー物体検出(Open-Vocabulary Object Detection: OVD)と指小表現理解(Referring Expression Comprehension: REC)を含む人気のあるタスクです。本論文では、これらのタスクをより実践的な設定である記述された物体検出(Described Object Detection: DOD)に発展させることを目指し、OVDのカテゴリ名を柔軟な言語表現に拡張し、RECが事前に存在する物体のみに制限される問題を克服しています。DODの研究基盤を確立するために、Description Detection Dataset ($D^3$) を構築しました。このデータセットは短いカテゴリ名から長い説明まで、柔軟な言語表現を特徴とし、すべての画像において記述されたすべての物体を欠落なくアノテーションしています。$D^3$ 上で既存の最先端(State-of-the-Art: SOTA)手法を評価した結果、現在のREC、OVDおよび両機能手法で失敗するいくつかの問題点が見つかりました。REC手法は信頼度スコアの扱い、否定的なインスタンスの拒否、および複数目標シナリオでの対応に苦戦しており、OVD手法は長くて複雑な説明への対応に制約があります。最近の両機能手法もRECとOVDタスクに対する分離された学習プロセスと推論戦略のためにDODでは十分な性能を発揮していません。上記の知見に基づき、訓練データの再構築とバイナリ分類サブタスクの導入によりREC手法を大幅に改善するベースラインモデルを提案します。このモデルは既存手法を超える性能を示しています。データセットとコードは https://github.com/shikras/d-cube で公開されており、関連研究については https://github.com/Charles-Xie/awesome-described-object-detection で追跡されています。