2ヶ月前

CoDet: 共起ガイド付き領域-単語対応付けによるオープンボキャブラリ物体検出

Ma, Chuofan ; Jiang, Yi ; Wen, Xin ; Yuan, Zehuan ; Qi, Xiaojuan
CoDet: 共起ガイド付き領域-単語対応付けによるオープンボキャブラリ物体検出
要約

画像とテキストのペアから信頼性のある領域-単語対応を導き出すことは、オープンボキャブラリー物体検出のためのオブジェクトレベルの視覚言語表現を学習する上で重要です。既存の手法は通常、事前学習または自己学習された視覚言語モデルに依存して対応を行いますが、これらのモデルは位置特定の精度や汎化能力において制限がある傾向があります。本論文では、CoDet(コデット)と呼ばれる新しいアプローチを提案します。このアプローチは、領域-単語対応を共起する物体発見問題として再定式化することで、事前対応した視覚言語空間への依存を克服します。直感的には、キャプションで共有概念が言及されている画像をグループ化することで、その共有概念に対応する物体がグループ内で高い共起率を持つことが期待されます。CoDetは視覚的な類似性を利用して共起する物体を見つけて、それらを共有概念と対応させます。広範な実験により、CoDetがオープンボキャブラリー検出において優れた性能と魅力的なスケーラビリティを持つことが示されています。例えば、視覚バックボーンを拡大することで、OV-LVISデータセット上で37.0 $\text{AP}^m_{novel}$ および 44.7 $\text{AP}^m_{all}$ を達成し、従来の最先端技術(SoTA)をそれぞれ4.2 $\text{AP}^m_{novel}$ および 9.8 $\text{AP}^m_{all}$ 上回っています。コードは https://github.com/CVMI-Lab/CoDet で入手可能です。

CoDet: 共起ガイド付き領域-単語対応付けによるオープンボキャブラリ物体検出 | 最新論文 | HyperAI超神経