OV-DQUO: 開放語彙DETRを用いたデノイジングテキストクエリ訓練およびオープンワールド未知オブジェクトの監督

オープンボキャブラリ検出は、検出器が訓練された基本カテゴリ以外の新しいカテゴリからの物体を検出することを目指しています。しかし、既存のオープンボキャブラリ検出器は、基本カテゴリデータで訓練されると、訓練済みのカテゴリに高い信頼度を割り当て、新しいカテゴリを背景と混同する傾向があります。この問題を解決するために、我々はOV-DQUO(\textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision)を提案します。具体的には、ワイルドカードマッチング手法を導入しました。この手法により、オープンワールド検出器によって認識された未知の物体と一般的な意味を持つテキスト埋め込みのペアから学習することが可能となり、基本カテゴリと新しいカテゴリ間の信頼度バイアスを軽減できます。さらに、ノイズ除去テキストクエリトレーニング戦略も提案しています。これは、オープンワールド未知の物体から前景と背景のクエリボックスペアを合成し、対照学習を通じて検出器を訓練することで、新しい物体と背景との区別能力を向上させます。我々は困難なOV-COCOおよびOV-LVISベンチマークにおいて広範な実験を行い、それぞれ新規カテゴリでの45.6 AP50および39.3 mAPという最新の最先端結果を得ました。追加の訓練データを使用せずにこれらの成果を達成しています。モデルとコードは \url{https://github.com/xiaomoguhz/OV-DQUO} で公開されています。