2ヶ月前
ProContEXT: Progressive Context Transformer を用いた追跡の探索
Jin-Peng Lan; Zhi-Qi Cheng; Jun-Yan He; Chenyang Li; Bin Luo; Xu Bao; Wangmeng Xiang; Yifeng Geng; Xuansong Xie

要約
既存の視覚物体追跡(Visual Object Tracking: VOT)は、最初のフレームにおける目標領域のみをテンプレートとして使用しています。これにより、急速に変化する混雑したシーンでは、フレーム間での物体の外観変化を考慮できず、追跡が必然的に失敗します。この問題を解決するために、我々は進行的なコンテキストエンコーディングトランスフォーマー追跡器(Progressive Context Encoding Transformer Tracker: ProContEXT)を用いて追跡フレームワークを刷新しました。ProContEXTは空間と時間のコンテキストを一貫して活用し、物体の運動軌道を予測します。具体的には、コンテキスト認識型自己注意モジュールを使用して空間と時間のコンテキストをエンコードし、多尺度静的および動的テンプレートを洗練・更新することで、段階的に正確な追跡を行います。また、空間と時間のコンテキスト間の補完性を探求し、トランスフォーマーに基づく追跡器における多コンテキストモデリングの新しいアプローチを提案しています。さらに、ProContEXTはトークンプルーニング技術を見直し、計算複雑度を削減しました。GOT-10kやTrackingNetなどの人気ベンチマークデータセットでの広範な実験により、提案されたProContEXTが最先端の性能を達成していることが示されています。