17日前
時空間変換器を用いた適応型トラッキングのための自己回帰的クエリ
Jinxia Xie, Bineng Zhong, Zhiyi Mo, Shengping Zhang, Liangtao Shi, Shuxiang Song, Rongrong Ji

要約
視覚追跡において、複雑な対象の外観変化を正確に捉えるには、豊富な空間時間的情報が不可欠である。しかし、現在最も優れた性能を発揮する追跡アルゴリズムの多くは、空間時間情報の統合に多くの手作業で設計された構成要素に依存している。その結果、空間時間情報の潜在的な活用はまだ十分に行われていない。この問題を軽減するために、本研究では空間時間変換器(spatio-temporal transformers)を搭載した適応型追跡器(AQATrack)を提案する。この手法は、多数の手設計された構成要素に依存せずに、シンプルな自己回帰的クエリ(autoregressive queries)を用いて効果的に空間時間情報を学習する。まず、スライディングウィンドウ形式で瞬時の対象外観変化を捉えるため、学習可能な自己回帰的クエリの集合を導入する。次に、既存のクエリ間の相互作用を実現する新しいアテンション機構を設計し、現在のフレームにおける新しいクエリを生成する。最後に、初期の対象テンプレートと学習された自己回帰的クエリに基づき、空間時間情報の統合モジュール(STM: Spatio-Temporal Information Fusion Module)を構築し、対象物体の位置推定を実現する。STMの導入により、静的な外観情報と瞬時の変化を効果的に統合し、堅牢な追跡を実現できる。広範な実験結果から、本手法はLaSOT、LaSOText、TrackingNet、GOT-10k、TNL2K、UAV123の6つの代表的な追跡ベンチマークにおいて、追跡性能を顕著に向上させることを示した。