2ヶ月前

多モーダル融合によるエンドツーエンドRGB-T追跡

Lichao Zhang; Martin Danelljan; Abel Gonzalez-Garcia; Joost van de Weijer; Fahad Shahbaz Khan
多モーダル融合によるエンドツーエンドRGB-T追跡
要約

我々はRGBとTIR(熱赤外線)モダリティを融合するためのエンドツーエンド追跡フレームワークを提案します。ベースライントラッカーとしてDiMP(Discriminative Model Prediction: 差別的モデル予測)を使用し、これは差別的損失関数を用いてエンドツーエンドで訓練された、慎重に設計されたターゲット予測ネットワークを採用しています。DiMPの主要な構成要素である特徴抽出器、ターゲット推定ネットワーク、および分類器におけるモダリティ融合の効果を分析します。ピクセルレベル、特徴レベル、応答レベルなど、フレームワーク内の異なるレベルで作用するいくつかの融合メカニズムについて検討します。我々のトラッカーはエンドツーエンドで訓練され、両方のモダリティからの情報をどのように融合させるかを各構成要素が学習できるようにしています。モデル訓練用データとして、アノテーション付きRGB追跡データセット(GOT-10k)を考慮し、画像対画像翻訳手法を使用してペアとなるTIR画像を合成することで大規模なRGB-Tデータセットを生成しました。VOT-RGBT2019データセットとRGBT210データセットにおいて広範な実験を行い、各モデル構成要素に対する各タイプのモダリティ融合を評価しました。結果は、提案された融合メカニズムが単一モダリティの対応物よりも性能が向上することを示しています。IoU-Netとモデル予測器において特徴レベルでの融合を行った場合に最良の結果を得ることができ、VOT-RGBT2019データセット上でEAOスコア0.391を達成しました。この融合メカニズムにより、RGBT210データセット上で最先端の性能を達成しています。