11日前
SUTrack:単一オブジェクト追跡のためのシンプルかつ統一的なアプローチ
Xin Chen, Ben Kang, Wanting Geng, Jiawen Zhu, Yi Liu, Dong Wang, Huchuan Lu

要約
本稿では、単一オブジェクト追跡(SOT)のためのシンプルでありながら統一的なフレームワーク、SUTrackを提案する。この手法は、RGBベース、RGB-Depth、RGB-熱画像、RGB-イベント、RGB-言語追跡の5つのSOTタスクを、一度の学習セッションで統合的に扱える一つのモデルに統合する。現在の手法では、各データタイプの特性が異なるため、個別にアーキテクチャを設計し、それぞれ別々のモデルを学習している。この分断的なアプローチは、重複した学習プロセス、反復的な技術革新、そしてマルチモーダル間の知識共有の制限を引き起こしている。これに対して、SUTrackは、統一された入力表現を備えた単一モデルが、さまざまな一般的なSOTタスクを効果的に処理できることを示しており、タスク特化的な設計や別々の学習セッションの必要性を排除する。さらに、タスク認識を補助する学習戦略とソフトトークンタイプ埋め込み(soft token type embedding)を導入することで、最小限の計算負荷でSUTrackの性能をさらに向上させた。実験の結果、SUTrackは5つのSOTタスクにまたがる11のデータセットにおいて、従来のタスク特化型手法を上回る性能を達成した。また、エッジデバイスから高性能GPUまでをカバーする多様なモデルを提供し、速度と精度の間で良好なトレードオフを実現している。本研究が、統一型追跡モデルに関するさらなる革新的な研究の強固な基盤となることを期待している。コードとモデルは、github.com/chenxin-dlut/SUTrackにて公開されている。