2ヶ月前

地域認識プリトレーニングを用いた Vision Transformers を活用したオープンボキャブラリ物体検出

Dahun Kim; Anelia Angelova; Weicheng Kuo
地域認識プリトレーニングを用いた Vision Transformers を活用したオープンボキャブラリ物体検出
要約

我々はRegion-aware Open-vocabulary Vision Transformers (RO-ViT)を提案します。これは、画像レベルの事前学習とオープンボキャブラリオブジェクト検出の間のギャップを埋めるための対照的な画像-テキスト事前学習手法です。事前学習フェーズでは、位置エンベッディング全体を使用する代わりに、位置エンベッディングの領域をランダムに切り取り、リサイズすることを提案します。これにより、検出微調整フェーズでの領域レベルでの位置エンベッディングの使用との整合性がより高まります。さらに、対照的学習における一般的なソフトマックスクロスエントロピー損失を置き換え、情報量が多くかつ難しいサンプルをより効果的に学習するためにフォーカル損失を使用します。最後に、最近の新規オブジェクト提案手法の進歩を利用して、オープンボキャブラリ検出の微調整を改善します。我々は完全なモデルについてLVISおよびCOCOオープンボキャブラリ検出ベンチマークとゼロショット転移で評価しました。RO-ViTはLVISで最新の34.1 $AP_r$ を達成し、既存の最良アプローチを超える+7.8ポイントとともに競争力のあるゼロショット転移検出も実現しています。驚くべきことに、RO-ViTは画像レベル表現も向上させ、COCOおよびFlickr画像-テキスト検索ベンチマークにおいて12つの指標中の9つで最新の成果を達成し、より大きなモデルを持つ競合アプローチを上回っています。

地域認識プリトレーニングを用いた Vision Transformers を活用したオープンボキャブラリ物体検出 | 最新論文 | HyperAI超神経