2 个月前

MiPa:混合补丁红外-可见光模态无关目标检测

Medeiros, Heitor R. ; Latortue, David ; Granger, Eric ; Pedersoli, Marco
MiPa:混合补丁红外-可见光模态无关目标检测
摘要

在实际场景中,使用多种模态(如可见光(RGB)和红外(IR))可以显著提高预测任务(例如目标检测(OD))的性能。多模态学习是一种常见的利用这些模态的方法,其中多个特定模态的编码器和一个融合模块被用于提升性能。本文探讨了一种不同的方法来使用RGB和IR模态,即仅通过单个共享视觉编码器观察其中一个或另一个模态。这种现实设置需要较低的内存占用,并且更适合于自动驾驶和监控等应用,这些应用通常依赖于RGB和IR数据。然而,在多个模态上训练单个编码器时,一个模态可能会主导另一个模态,导致识别结果不均衡。本研究调查了如何高效地利用RGB和IR模态来训练一个基于变压器的通用OD视觉编码器,同时对抗模态不平衡的影响。为此,我们引入了一种新的训练技术——混合补丁(Mix Patches, MiPa),结合了一个逐片模态无关模块,以学习两种模态的共同表示。实验结果显示,MiPa可以在推理过程中仅需一个模态的情况下,在传统的RGB/IR基准测试中达到具有竞争力的结果。我们的代码可在以下地址获取:https://github.com/heitorrapela/MiPa。

MiPa:混合补丁红外-可见光模态无关目标检测 | 最新论文 | HyperAI超神经