Command Palette
Search for a command to run...
時空間トランスフォーマーを用いた視覚追跡の学習
時空間トランスフォーマーを用いた視覚追跡の学習
Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu
概要
本論文では、エンコーダー-デコーダー変換器を主要な構成要素とする新しい追跡アーキテクチャを提案します。エンコーダーは対象物体と探索領域の間の全体的な時空間特徴依存関係をモデル化し、デコーダーはクエリ埋め込みを学習して対象物体の空間位置を予測します。当手法は物体追跡を直接的なバウンディングボックス予測問題として扱い、プロポーザルや事前定義されたアンカーを使用しません。エンコーダー-デコーダー変換器により、物体の予測には単純な全結合畳み込みネットワーク(Fully-Convolutional Network)のみを使用し、物体の角を直接推定します。この手法はエンドツーエンドであり、コサインウィンドウやバウンディングボックス平滑化などの後処理ステップを必要とせず、既存の追跡パイプラインを大幅に簡素化します。提案されたトラッカーは5つの挑戦的な短期および長期ベンチマークで最先端の性能を達成しており、Siam R-CNNよりも6倍速くリアルタイム速度で動作します。コードとモデルはオープンソースで提供されており、以下のURLからアクセスできます: https://github.com/researchmm/Stark。