ICAFusion:用于多光谱目标检测的迭代交叉注意力引导特征融合

多光谱图像的有效特征融合在多光谱目标检测中起着至关重要的作用。以往的研究已经证明了使用卷积神经网络进行特征融合的有效性,但这些方法由于局部范围特征交互的固有缺陷而对图像错位敏感,导致性能下降。为了解决这一问题,提出了一种基于双交叉注意力变换器的新型特征融合框架,以建模全局特征交互并同时捕捉不同模态之间的互补信息。该框架通过查询引导的交叉注意力机制增强了目标特征的可区分性,从而提高了性能。然而,堆叠多个变换器块以增强特征会导致参数数量庞大和空间复杂度高。为此,受人类回顾知识过程的启发,提出了一种迭代交互机制,使得块级多模态变换器之间共享参数,降低了模型复杂度和计算成本。所提出的方法具有通用性和有效性,可以集成到不同的检测框架中,并与不同的主干网络配合使用。在KAIST、FLIR和VEDAI数据集上的实验结果表明,该方法实现了优越的性能和更快的推理速度,适用于各种实际场景。代码将在 https://github.com/chanchanchan97/ICAFusion 提供。注释:- “multispectral images” 翻译为“多光谱图像”- “multi-spectral object detection” 翻译为“多光谱目标检测”- “convolutional neural networks” 翻译为“卷积神经网络”- “feature fusion” 翻译为“特征融合”- “dual cross-attention transformers” 翻译为“双交叉注意力变换器”- “query-guided cross-attention mechanism” 翻译为“查询引导的交叉注意力机制”- “spatial complexity” 翻译为“空间复杂度”- 数据集名称如“KAIST”、“FLIR” 和“VEDAI” 保留原名- 作者提供的代码链接直接引用