16日前
適応型認識を用いた統一視覚マルチモーダルオブジェクトトラッキング
Xiantao Hu, Bineng Zhong, Qihua Liang, Zhiyi Mo, Liangtao Shi, Ying Tai, Jian Yang

要約
近年、多くのマルチモーダル追跡手法はRGBを主なモダリティとして重視し、他のモダリティを補助的要素として扱い、それぞれのマルチモーダルタスクに対して別々にファインチューニングを行う傾向にある。このようなモダリティ間の依存度の不均衡は、複雑なシナリオにおいて各モダリティが持つ補完的情報を動的に活用する能力を制限しており、マルチモーダルの真の利点を十分に捉えることが困難となっている。その結果、統一されたパラメータモデルは、さまざまなマルチモーダル追跡タスクにおいて性能が劣ることが多い。この課題に対処するため、本研究ではマルチモーダル適応的認識を目的とした新しい統一型追跡器APTrackを提案する。従来の手法とは異なり、APTrackは等価モデリング戦略を用いて統一的な表現を探索する。この戦略により、異なるタスク間での追加的なファインチューニングを必要とせずに、モデルが様々なモダリティやタスクに動的に適応可能となる。さらに、学習可能なトークンを生成することで、クロスモダリティ間の相互作用を効率的に橋渡しする適応的モダリティ相互作用(AMI)モジュールを統合している。RGBT234、LasHeR、VisEvent、DepthTrack、VOT-RGBD2022の5つの多様なマルチモーダルデータセット上で実施された実験により、APTrackは既存の最先端統一型マルチモーダル追跡器を上回ることはもとより、特定のマルチモーダルタスクに特化した追跡器に対しても優れた性能を発揮することが明らかになった。