11 天前

$\mathbf{C}^2$Former:用于可见光-红外目标检测的校准与互补Transformer

Maoxun Yuan, Xingxing Wei
$\mathbf{C}^2$Former:用于可见光-红外目标检测的校准与互补Transformer
摘要

可见光(RGB)与红外(IR)图像的目标检测作为一项新兴技术,近年来受到广泛关注,旨在实现全天候应用下的鲁棒性检测。借助红外图像,通过融合RGB与IR模态信息,目标检测器在实际应用中表现出更高的可靠性与鲁棒性。然而,现有方法仍面临模态校准不足与特征融合不精确的问题。鉴于Transformer具备建模不同特征间成对关联的强大能力,本文提出一种新型的校准互补Transformer——$\mathrm{C}^2$Former,以同时解决上述两个问题。在$\mathrm{C}^2$Former中,我们设计了跨模态交叉注意力(Inter-modality Cross-Attention, ICA)模块,通过学习RGB与IR模态之间的交叉注意力关系,提取校准且互补的特征表示。为降低ICA模块中全局注意力计算带来的高计算开销,进一步引入自适应特征采样(Adaptive Feature Sampling, AFS)模块,以降低特征图的维度。由于$\mathrm{C}^2$Former在特征域中进行操作,可无缝嵌入现有基于RGB-IR的检测框架中,仅通过替换骨干网络即可实现集成。为此,我们构建了分别基于单阶段与双阶段检测器的两种实现方案,以全面评估其有效性与通用性。在DroneVehicle与KAIST RGB-IR数据集上的大量实验结果表明,所提方法能够充分挖掘RGB与IR模态间的互补信息,显著提升检测性能的鲁棒性。代码已开源,地址为:https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git。

$\mathbf{C}^2$Former:用于可见光-红外目标检测的校准与互补Transformer | 最新论文 | HyperAI超神经