2ヶ月前

SDSTrack: 多モーダル視覚物体追跡のための自己蒸留対称アダプタ学習

Xiaojun Hou; Jiazheng Xing; Yijie Qian; Yaowei Guo; Shuo Xin; Junhao Chen; Kai Tang; Mengmeng Wang; Zhengkai Jiang; Liang Liu; Yong Liu
SDSTrack: 多モーダル視覚物体追跡のための自己蒸留対称アダプタ学習
要約

多モーダル視覚物体追跡(VOT)は、その堅牢性により最近注目を集めています。初期の研究では、RGBベースのトラッカーを完全にファインチューニングすることに焦点が当てられていましたが、これは効率が低く、多モーダルデータの不足により一般化された表現が欠けていました。したがって、最近の研究ではプロンプトチューニングを用いて事前学習されたRGBベースのトラッカーを多モーダルデータに転移する手法が採用されています。しかし、モーダリティギャップが事前学習された知識の再現を制限し、RGBモーダリティの優位性が持続することで、他のモーダリティからの情報の完全な利用が妨げられています。これらの問題に対処するために、我々は新しい対称的な多モーダル追跡フレームワークであるSDSTrackを提案します。軽量な適応手法を導入して効率的なファインチューニングを実現し、少量の学習可能なパラメータで特徴抽出能力をRGBから他のドメインへ直接転送し、多モーダル特徴量をバランスよく対称的に統合します。さらに、補完的なマスク付きパッチディスティレーション戦略を設計して、極端な天候や画像品質の悪さ、センサ故障などの複雑な環境下でのトラッカーの堅牢性を向上させます。広範な実験結果は、SDSTrackがRGB+深度(Depth)、RGB+熱赤外線(Thermal)、およびRGB+イベント(Event)追跡など様々な多モーダル追跡シナリオにおいて最先端手法を超える性能を示しており、極端な条件下でも優れた結果を得ていることを証明しています。当方のソースコードはhttps://github.com/hoqolo/SDSTrack で公開されています。