2ヶ月前

再訪問:画像セグメント検索を用いた視覚的場所認識

Kartik Garg; Sai Shubodh Puligilla; Shishir Kolathaya; Madhava Krishna; Sourav Garg
再訪問:画像セグメント検索を用いた視覚的場所認識
要約

再訪問した場所を正確に認識することは、具現化されたエージェントが自己位置推定とナビゲーションを行う上で重要です。これは、カメラの視点やシーンの外観に大きな変動がある場合でも、視覚表現が明確であることを必要とします。既存の視覚的な場所認識パイプラインは、「全体」の画像をエンコードし、一致する部分を探します。しかし、異なるカメラの視点から撮影された同じ場所の2つの画像を一致させる際には、「重複する部分の類似性が重複しない部分の非類似性によって支配される」という根本的な課題があります。この問題に対処するために、私たちは「画像セグメント」をエンコードし、検索することを提案します。私たちはオープンセット画像セグメンテーションを使用して、画像を「意味のある」エンティティ(つまり、物体と背景)に分解することを提案します。これにより、セグメントとその近隣セグメントとの間で多重に重なるサブグラフを集めた新しい画像表現を作成できます。これをSuperSegmentと呼びます。さらに、これらのSuperSegmentを効率的にコンパクトなベクトル表現にエンコードするために、特徴量集約の新しい因子化表現を提案します。実験結果は、これらの部分的な表現を使用した検索が通常の全体画像ベースの検索よりも著しく高い認識再現率につながることを示しています。私たちが提案するセグメントベースのアプローチSegVLADは、多様なベンチマークデータセットでの場所認識において新たな最先端技術となりつつあります。また、汎用的な画像エンコーダーだけでなくタスク専門的な画像エンコーダーにも適用可能です。最後に、「何でも再訪問」する可能性を示すために、オブジェクトインスタンス検索タスクでの方法評価を行いました。これにより、視覚的な場所認識とオブジェクト目標ナビゲーションという研究分野間のギャップが埋まりました。両分野共通の目的である特定の場所に関連する目標オブジェクトを認識することでつなげています。ソースコード: https://github.com/AnyLoc/Revisit-Anything.