2ヶ月前
単一モーダルおよびマルチモーダル視覚オブジェクト追跡のための統一されたシーケンス・ツー・シーケンス学習
Xin Chen; Ben Kang; Jiawen Zhu; Dong Wang; Houwen Peng; Huchuan Lu

要約
本論文では、RGBベースおよび多モーダル物体追跡のための新しいシーケンス・ツー・シーケンス学習フレームワークを紹介します。まず、RGBベースの追跡に向けたSeqTrackを提示します。これは視覚的な追跡をシーケンス生成タスクとして扱い、オートレグレッシブな方法で物体のバウンディングボックスを予測します。これは従来のトラッカーとは異なります。従来のトラッカーは、分類ヘッドや回帰ヘッドなどの複雑なヘッドネットワークの設計に依存していますが、SeqTrackは基本的なエンコーダー-デコーダー変換器アーキテクチャを使用します。エンコーダーは双方向変換器を用いて特徴量抽出を行い、デコーダーは因果変換器を使用してバウンディングボックスのシーケンスをオートレグレッシブに生成します。損失関数は単純なクロスエントロピーです。次に、多モーダル追跡タスク向けの一貫したシーケンス・ツー・シーケンスフレームワークであるSeqTrackv2を導入します。SeqTrackv2はSeqTrackを拡張し、補助モーダリティの一貫したインターフェースとタスク指定用のトークンセットを統合しています。これにより、一貫したモデルとパラメータセットを使用して多モーダル追跡タスクに対応することが可能になります。このシーケンス学習パラダイムは追跡フレームワークを簡素化するだけでなく、5つの単一および多モーダル追跡タスクにわたる14つの困難なベンチマークにおいて優れた性能を示しています。コードとモデルは以下のURLから入手可能です: https://github.com/chenxin-dlut/SeqTrackv2.