17 天前

GeminiFusion：面向视觉Transformer的高效像素级多模态融合

Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen

摘要

跨模态Transformer在多种视觉任务中展现出卓越性能，通过有效融合不同模态信息实现了显著提升。本文首先对先前的token交换方法进行了批判性分析，指出这些方法通过用跨模态特征替换信息量较低的token来实现融合，然而实验表明，基于交换的策略在性能上仍逊于跨注意力机制（cross-attention）。尽管跨注意力机制具有更强的表达能力，但其固有的高计算开销限制了其在长序列输入场景下的应用。为克服这一计算瓶颈，本文提出GeminiFusion，一种基于像素级融合的新型方法，充分利用对齐的跨模态表示。GeminiFusion巧妙地结合了模内注意力（intra-modal attention）与模间注意力（inter-modal attention），动态整合各模态间的互补信息。我们引入层自适应噪声（layer-adaptive noise），在每一层上自适应调控两种注意力机制的交互强度，从而实现融合过程的协同优化。值得注意的是，GeminiFusion在输入token数量上保持线性时间复杂度，使得该多模态框架的运行效率可与单模态网络相媲美。在多模态图像到图像转换、3D目标检测以及任意模态语义分割等任务上的全面实验验证了GeminiFusion的优越性能，涵盖RGB、深度图、LiDAR、事件数据等多种模态。相关PyTorch代码已开源，地址为：https://github.com/JiaDingCN/GeminiFusion。