UAV 視点の地理位置特定のためのトランスフォーマーに基づく特徴セグメンテーションと領域アライメント手法

クロスビュー地理位置特定は、異なる視点から同一の地理的画像をマッチングするタスクであり、例えば無人航空機(UAV)と衛星からの画像が対象となります。最も難しい課題は位置のずれと距離やスケールの不確実性です。既存の手法は主に、より包括的な詳細情報の抽出を目指しています。しかし、堅牢な特徴表現の抽出と特徴アライメントの影響を軽視しています。CNNベースの手法はクロスビュー地理位置特定において大きな成功を収めていますが、まだいくつかの制限があります。例えば、近傍情報の一部しか抽出できず、一部のスケール縮小操作により細かい情報が失われることがあります。特に、我々はシンプルかつ効率的なトランスフォーマーに基づく構造である「Feature Segmentation and Region Alignment (FSRA)」を導入し、モデルがコンテキスト情報を理解し、インスタンス分布を把握する能力を向上させることを目指します。追加の監督情報を使わずに、FSRAはトランスフォーマーの特徴マップのヒート分布に基づいて領域分割を行い、その後異なる視点間で複数の特定領域を一対一でアライメントします。最後に、FSRAは各領域を一連の特徴表現に統合します。FSRAの特長は、領域分割を手動ではなく特徴マップのヒート分布に基づいて自動的に行うことです。これにより、画像に著しい位置ずれやスケール変化がある場合でも特定のインスタンスを分割およびアライメントできます。さらに、衛星画像と他のソースからの画像数における不均衡に対処するために多重サンプリング戦略が提案されています。実験結果によると、提案された手法は優れた性能を示し、ドローン視点目標位置特定およびドローンナビゲーション両タスクにおいて最先端レベルに達しています。コードは https://github.com/Dmmm1997/FSRA で公開されます。