12日前

チャネルスイッチングと空間注意力を用いたマルチモーダルオブジェクト検出

{Zheng Liu, Erik Blasch, Jozsef Hamari, Junchi Bin, Yue Cao}
チャネルスイッチングと空間注意力を用いたマルチモーダルオブジェクト検出
要約

近年、異なるモダリティに特有の情報を統合することで検出モデルの精度と安定性を効果的に向上できるため、マルチモーダルオブジェクト検出は注目を集めている。しかし、単一モダリティの入力を処理する場合と比較して、複数モダリティの情報を融合することは、モデルの計算複雑性を著しく増加させるため、効率性に悪影響を及ぼすことがある。したがって、検出モデルの性能を向上させつつ、計算コストを低く抑えるために、マルチモーダル融合モジュールの設計に細心の注意を払う必要がある。本論文では、チャネルスイッチングと空間アテンション(CSSA)を用いて、異なるモダリティからの入力を効率的に融合できる新しい軽量な融合モジュールを提案する。このモジュールの有効性と汎化能力は、赤外線(IR)画像と可視光(RGB)画像のペアを含む2つの公開マルチモーダルデータセットLLVIPおよびFLIRを用いて検証された。実験の結果、提案するCSSAモジュールは、過度な計算リソースを消費することなく、マルチモーダルオブジェクト検出の精度を顕著に向上させることを示した。

チャネルスイッチングと空間注意力を用いたマルチモーダルオブジェクト検出 | 最新論文 | HyperAI超神経