11日前

リージョン中心型画像言語事前学習によるオープンボリューム検出

Dahun Kim, Anelia Angelova, Weicheng Kuo
リージョン中心型画像言語事前学習によるオープンボリューム検出
要約

我々は、画像レベルの事前学習とオープンボリューム物体検出の間のギャップを埋めるために、領域中心型の画像・言語事前学習に基づく新しいオープンボリューム検出アプローチを提案する。事前学習段階では、分類用バックボーンの上に検出器アーキテクチャを組み込むことで、検出タスクにおける領域レベルの認識ニーズに適した学習が可能となる。これにより、検出器ヘッドが大規模な画像・テキストペアから学習することが可能になる。本手法は、標準的な対照学習損失(contrastive loss)を用いるのみで、偽ラベル付け(pseudo-labeling)を一切不要としており、対照学習法の単純ながらも有効な拡張として、出現する物体意味特徴(object-semantic cues)を学習可能である。さらに、窓注意力(window attention)に基づく「シフトウィンドウ学習(shifted-window learning)」アプローチを提案することで、バックボーンの表現がよりロバストで、平行移動不変性に富み、ウィンドウパターンによるバイアスも軽減される。一般的なViT-Lバックボーンと公開のLAIONデータセットを用いた場合、代表的なLVISオープンボリューム検出ベンチマークにおいて37.6のマスクAPr(mask APr)を達成し、既存の最良手法を+3.7マスクAPrの差で大きく上回る新記録を樹立した。また、DataComp-1Bデータセットを用いた場合、40.5のマスクAPrを達成し、システムレベルでの性能向上が顕著である。COCOベンチマークでは、偽ラベル付けや弱教師付き学習(weak supervision)を一切使用せずに、39.6の新規物体AP(novel AP)を達成し、非常に競争力のある結果を示した。さらに、転移検出設定(transfer detection setup)においても本手法の有効性を評価したところ、ベースラインに対して顕著な性能向上が確認された。可視化結果から、事前学習のプロセスによって、従来のベースラインと比較して、物体の局所性(object locality)が自然に発現していることが明らかになった。

リージョン中心型画像言語事前学習によるオープンボリューム検出 | 最新論文 | HyperAI超神経