2ヶ月前
ICAFusion: 反復クロスアテンションガイダンス特徴量融合による多スペクトル物体検出
Shen, Jifeng ; Chen, Yifei ; Liu, Yue ; Zuo, Xin ; Fan, Heng ; Yang, Wankou

要約
多スペクトル画像の効果的な特徴量融合は、多スペクトル物体検出において重要な役割を果たします。これまでの研究では、畳み込みニューラルネットワークを使用した特徴量融合の有効性が示されていますが、これらの方法は局所範囲の特徴量相互作用における固有の欠陥により、画像のずれに敏感で性能が低下する傾向があります。この問題に対処するために、双方向クロスアテンショントランスフォーマーによる新しい特徴量融合フレームワークが提案されました。このフレームワークは、グローバルな特徴量相互作用をモデル化し、モダリティ間での補完的な情報を同時に捉えることで、物体特徴量の識別性を向上させます。その結果、性能が向上します。しかし、複数のトランスフォーマーブロックを積み重ねて特徴量を強化すると、パラメータ数が多くなり空間的複雑さも高くなるという課題があります。これを解決するために、人間が知識を復習する過程に着想を得て、ブロック単位のマルチモーダルトランスフォーマー間でパラメータを共有する反復相互作用機構が提案されました。これによりモデルの複雑さと計算コストが削減されます。提案された手法は汎用性と効果性があり、異なる検出フレームワークやバックボーンと共に統合して使用することができます。KAIST, FLIR, および VEDAI データセットでの実験結果は、提案手法が優れた性能と高速な推論を達成し、さまざまな実用的なシナリオに適していることを示しています。コードは https://github.com/chanchanchan97/ICAFusion で公開予定です。