単一モデルと任意のモダリティによるビデオオブジェクト追跡

ビデオオブジェクト追跡の分野において、深度、熱画像、イベントデータなどの補助モダリティがRGBトラッカーを補完する価値ある資産として注目を集めています。実際には、既存のRGBトラッカーの多くは、データセットやアプリケーション間で使用するために単一のパラメータセットを学習しています。しかし、マルチモダリティ追跡における同様の単一モデル統合にはいくつかの課題があります。これらの課題は、入力の本質的な異質性(各モダリティ固有の表現)、マルチモダリティデータセットの希少性、およびすべてのモダリティが常に利用可能でないという点に起因します。本研究では、任意のモダリティに対して単一のパラメータセットを使用する統合トラッカー「Un-Track」を提案します。任意のモダリティに対応するため、当手法は低ランク分解と再構成技術を用いて共通潜在空間を学習します。特に重要な点は、共通潜在空間を学習するためにRGB-Xペアのみを使用することです。この独自の共有表現は、すべてのモダリティをシームレスに結びつけ、効果的な統合を実現し、欠落しているモダリティにも対応できるようにします。また、単一のトランスフォーマーベースアーキテクチャ内でこれら全てを処理できます。当研究におけるUn-TrackはDepthTrackデータセット上で+8.1絶対Fスコア向上を達成しました。これは+2.14 GFLOPs(21.50 GFLOPs以上)と+6.6M(93M以上)パラメータ増加により、シンプルかつ効率的なプロンプティング戦略を通じて実現されました。異なる5つのベンチマークデータセットでの広範な比較評価により、Un-TrackはSOTA(State-of-the-Art)統合トラッカーおよびモダリティ固有の対応手法を超える性能を示しており、その有効性と実用性が確認されています。ソースコードは公開されており、以下のURLからアクセスできます: https://github.com/Zongwei97/UnTrack.