
要約
本稿では、RGB動画とイベントデータからのクロスモーダルオブジェクト追跡の問題に取り組む。複雑なクロスモーダル融合ネットワークを構築するのではなく、事前学習済みのビジョンTransformer(ViT)が有する大きな潜在能力に着目する。特に、両モーダル間の顕著な分布ギャップを埋めるために、ViTが能動的に異なるモーダル間のトークン相互作用を促進するよう設計された「プラグアンドプレイ型」の訓練拡張手法を精緻に検討する。具体的には、一部のトークンに対して特定モーダルをランダムにマスクするマスクモデリング戦略を提案し、異なるモーダル間の相互作用を強制的に促進する。このマスク戦略が引き起こすネットワークの振動を軽減し、そのポジティブな効果をさらに強化するため、理論的に直交的かつ高ランクの損失関数を提案し、アテンション行列の正則化を実現する。広範な実験により、本手法が、追跡精度および成功確率の両面で、最先端のワンストリームおよびツーストリーム追跡器を大幅に向上させることを実証した。本研究の新たな視点と発見は、強力な事前学習済みViTを用いてクロスモーダルデータをモデル化する分野に新たな知見をもたらす可能性がある。コードは公開予定である。