2ヶ月前

OV-DINO: 言語対応選択的融合による統一的なオープンボキャブラリ検出

Hao Wang; Pengzhen Ren; Zequn Jie; Xiao Dong; Chengjian Feng; Yinlong Qian; Lin Ma; Dongmei Jiang; Yaowei Wang; Xiangyuan Lan; Xiaodan Liang
OV-DINO: 言語対応選択的融合による統一的なオープンボキャブラリ検出
要約

オープンボキャブラリ検出は、訓練中に遭遇しなかったクラス名を含むオブジェクトの検出を必要とするため、困難な課題となっています。既存の手法は、多様な大規模データセットでの事前学習と疑似ラベリングを通じて強力なゼロショット検出能力を示しています。しかし、これらのアプローチは2つの主要な課題に直面しています:(i) 疑似ラベリングからのデータノイズを効果的に除去する方法、(ii) 言語認識機能を効率的に利用して領域レベルのクロスモダリティ融合と整列を行う方法です。これらの課題に対処するために、我々は言語認識機能を持つ統一フレームワークで多様な大規模データセット上で事前学習された新しい統一オープンボキャブラリ検出手法OV-DINO(Open-Vocabulary Detection with INtegrated Optimization)を提案します。具体的には、エンドツーエンドの学習を可能にし、異なるデータソースを検出中心のデータ形式に統合することで疑似ラベル生成からのノイズを除去するUnified Data Integration (UniDI) パイプラインを導入します。さらに、言語認識に基づくクエリ選択と融合プロセスを通じてクロスモダリティ整列を強化するLanguage-Aware Selective Fusion (LASF) モジュールを提案します。我々は提案したOV-DINOの性能を人気のあるオープンボキャブラリ検出ベンチマークで評価しました。COCOベンチマークでは50.6%のAP(Average Precision)、LVISベンチマークでは40.1%のAPで最先端の結果を得ました。これはゼロショット設定においてOV-DINOが強い汎化能力を持っていることを示しています。また、COCOでファインチューニングされたOV-DINOは58.4%のAPを達成し、同じバックボーンを使用する多くの既存手法よりも優れた性能を発揮しました。OV-DINOのコードは以下のURLから入手可能です:https://github.com/wanghao9610/OV-DINO