11 天前
视觉Transformer的多模态Token融合
Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang

摘要
为应对单模态视觉任务中Transformer架构的挑战,已有诸多改进方法被提出,其核心思想是通过堆叠自注意力模块来处理图像等输入数据。直观上,将多种模态的数据输入视觉Transformer有望提升性能,但不同模态间的注意力权重可能相互稀释,反而影响最终效果。为此,本文提出一种面向基于Transformer的视觉任务的多模态标记融合方法(TokenFusion)。为实现高效多模态融合,TokenFusion能够动态识别低信息量的标记,并用投影与聚合后的跨模态特征进行替换。同时,引入残差位置对齐机制,以显式保留融合后的跨模态对齐关系。该设计使Transformer能够学习多模态特征之间的关联性,同时保持单模态Transformer的原有架构结构基本不变。在多种同质与异质模态组合上的大量实验表明,TokenFusion在三项典型视觉任务中均优于当前最先进方法:多模态图像到图像转换、RGB-深度语义分割,以及基于点云与图像的3D目标检测。相关代码已开源,地址为:https://github.com/yikaiw/TokenFusion。