11 天前
面向目标的双对抗学习与多场景多模态基准:用于红外与可见光目标检测融合
Jinyuan Liu, Xin Fan, Zhanbo Huang, Guanyao Wu, Risheng Liu, Wei Zhong, Zhongxuan Luo

摘要
本研究针对红外与可见光图像在目标检测中呈现显著差异的问题,提出了一种联合优化图像融合与检测任务的新方法。以往方法通常致力于生成视觉质量较高的融合图像,其核心思想是挖掘两种模态间的共性特征,并在共性空间中通过迭代优化或深度神经网络实现融合。然而,这些方法忽视了模态差异所蕴含的互补信息,而这类信息对融合过程以及后续的目标检测任务具有至关重要的意义。本文提出一种双层优化框架,用于联合建模图像融合与目标检测任务,并进一步将其展开为一种面向目标感知的双对抗学习(Target-aware Dual Adversarial Learning, TarDAL)融合网络,与通用的目标检测网络协同工作。该融合网络采用单一生成器与双判别器结构,在学习模态差异的同时挖掘共性特征,从而有效保留红外图像中的目标结构信息以及可见光图像中的纹理细节。此外,本文构建了一套经过精确标定的红外与可见光同步成像系统,并采集了目前覆盖场景最广泛的基准数据集。在多个公开数据集及自建基准上的大量实验结果表明,所提方法不仅生成视觉效果更优的融合图像,而且在目标检测的平均精度均值(mAP)指标上显著优于现有最先进方法。