8 个月前

摘要

在实际场景中，使用多种模态（如可见光（RGB）和红外（IR））可以显著提高预测任务（例如目标检测（OD））的性能。多模态学习是一种常见的利用这些模态的方法，其中多个特定模态的编码器和一个融合模块被用于提升性能。本文探讨了一种不同的方法来使用RGB和IR模态，即仅通过单个共享视觉编码器观察其中一个或另一个模态。这种现实设置需要较低的内存占用，并且更适合于自动驾驶和监控等应用，这些应用通常依赖于RGB和IR数据。然而，在多个模态上训练单个编码器时，一个模态可能会主导另一个模态，导致识别结果不均衡。本研究调查了如何高效地利用RGB和IR模态来训练一个基于 Transformer 的通用OD视觉编码器，同时对抗模态不平衡的影响。为此，我们引入了一种新的训练技术——混合补丁（Mix Patches, MiPa），结合了一个逐片模态无关模块，以学习两种模态的共同表示。实验结果显示，MiPa可以在推理过程中仅需一个模态的情况下，在传统的RGB/IR基准测试中达到具有竞争力的结果。我们的代码可在以下地址获取：https://github.com/heitorrapela/MiPa。

源 PDF