2ヶ月前

BoQ: 場所は学習可能なクエリの袋に値する

Ali-Bey, Amar ; Chaib-draa, Brahim ; Giguère, Philippe
BoQ: 場所は学習可能なクエリの袋に値する
要約

視覚的な場所認識において、環境条件や視点が異なる状況下で位置の画像を正確に識別し、マッチングすることは依然として大きな課題となっています。本論文では、普遍的な場所特有の属性を捉えるために設計された一連のグローバルクエリを学習する新しい手法、Bag-of-Queries (BoQ) を紹介します。既存の自己注意機構を使用して入力特徴から直接クエリを生成する方法とは異なり、BoQ は異なる学習可能なグローバルクエリを用いてクロスアテンションを通じて入力特徴を探査し、一貫した情報集約を確保します。さらに、当手法は解釈可能な注意メカニズムを提供し、CNN および Vision Transformer バックボーンと統合できます。BoQ の性能は14の大規模ベンチマークにおける広範な実験を通じて示されており、NetVLAD、MixVPR および EigenPlaces などの現行の最先端技術を一貫して上回っています。また、グローバル検索手法(ワンステージ)として、Patch-NetVLAD、TransVPR 及び R2Former などのツーステージ検索手法も大幅に上回り、その処理速度と効率性は桁違いです。コードとモデルの重みは https://github.com/amaralibey/Bag-of-Queries で公開されています。