2ヶ月前

ODTrack: オンラインでの視覚追跡のための密集時系列トークン学習

Yaozong Zheng; Bineng Zhong; Qihua Liang; Zhiyi Mo; Shengping Zhang; Xianxian Li

要約

連続するビデオフレーム間でのオンライン文脈推論と関連付けは、視覚追跡におけるインスタンスの認識に不可欠です。しかし、現在の最高性能を誇るトラッカーの多くは、リファレンスフレームとサーチフレーム間の疎な時間的関係に依存し、オフラインモードで動作しています。その結果、各画像ペア内で独立してしか相互作用できず、限られた時間的相関関係しか確立できません。この問題を緩和するために、私たちは単純で柔軟かつ効果的なビデオレベルの追跡パイプラインを提案します。これを\textbf{ODTrack}と呼びます。\textbf{ODTrack}は任意の長さのビデオフレームを受け取り、インスタンスの空間時間的軌道関係を捉えます。また、ターゲットの識別特徴（位置情報）をトークンシーケンスに圧縮することで、フレーム間での関連付けを実現します。この新しいソリューションは以下の利点をもたらします：1) 純粋化されたトークンシーケンスが次のビデオフレームでの推論のプロンプトとして機能し、過去の情報を活用して将来の推論をガイドすることができます；2) トークンシーケンスの反復伝播により複雑なオンライン更新戦略が効果的に回避され、より効率的なモデル表現と計算が可能になります。\textbf{ODTrack}は7つのベンチマークで新たな\textit{SOTA}（State of the Art）性能を達成しつつ、リアルタイム速度で動作します。コードとモデルは\url{https://github.com/GXNU-ZhongLab/ODTrack}から入手可能です。