17 天前

GeminiFusion:面向视觉Transformer的高效像素级多模态融合

Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen
GeminiFusion:面向视觉Transformer的高效像素级多模态融合
摘要

跨模态Transformer在多种视觉任务中展现出卓越性能,通过有效融合不同模态信息实现了显著提升。本文首先对先前的token交换方法进行了批判性分析,指出这些方法通过用跨模态特征替换信息量较低的token来实现融合,然而实验表明,基于交换的策略在性能上仍逊于跨注意力机制(cross-attention)。尽管跨注意力机制具有更强的表达能力,但其固有的高计算开销限制了其在长序列输入场景下的应用。为克服这一计算瓶颈,本文提出GeminiFusion,一种基于像素级融合的新型方法,充分利用对齐的跨模态表示。GeminiFusion巧妙地结合了模内注意力(intra-modal attention)与模间注意力(inter-modal attention),动态整合各模态间的互补信息。我们引入层自适应噪声(layer-adaptive noise),在每一层上自适应调控两种注意力机制的交互强度,从而实现融合过程的协同优化。值得注意的是,GeminiFusion在输入token数量上保持线性时间复杂度,使得该多模态框架的运行效率可与单模态网络相媲美。在多模态图像到图像转换、3D目标检测以及任意模态语义分割等任务上的全面实验验证了GeminiFusion的优越性能,涵盖RGB、深度图、LiDAR、事件数据等多种模态。相关PyTorch代码已开源,地址为:https://github.com/JiaDingCN/GeminiFusion。