多モーダル空間時間パターンを活用したビデオオブジェクト追跡

多モーダル追跡は、従来のRGB追跡の固有の制限を効果的に解決する能力により、広範な注目を集めています。しかし、既存の多モーダル追跡器は主に空間特徴の融合と強化に焦点を当てているか、またはビデオフレーム間の疎な時間的な関係を利用しているだけです。これらのアプローチは、多モーダルビデオにおける時間的な相関関係を十分に活用しておらず、複雑な状況下で目標物の動的変化や運動情報を捕捉することが困難となっています。この問題を緩和するために、我々は統一された多モーダル空間時間追跡手法であるSTTrack(Spatial-Temporal Tracking)を提案します。過去のパラダイムが参考情報の更新にのみ依存していたのに対し、我々は時間状態ジェネレータ(Temporal State Generator, TSG)を導入しました。TSGは、多モーダル時間情報を含むトークン列を継続的に生成します。これらの時間情報トークンは、次の時間状態での目標物の位置特定をガイドし、ビデオフレーム間の長距離的な文脈的関係を確立し、目標物の時間軌道を捕捉するために使用されます。さらに、空間レベルではマムバ融合(Mamba Fusion)と背景抑制相互作用(Background Suppression Interactive, BSI)モジュールを導入しました。これらのモジュールは、モーダル間での情報相互作用と融合を調整する二段階メカニズムを確立します。5つのベンチマークデータセットにおける広範な比較実験により、STTrackが様々な多モーダル追跡シナリオにおいて最先端の性能を達成していることが示されています。コードは以下のURLから入手可能です: https://github.com/NJU-PCALab/STTrack.