HyperAIHyperAI

Command Palette

Search for a command to run...

GeminiFusion:面向视觉Transformer的高效像素级多模态融合

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

摘要

跨模态Transformer在多种视觉任务中展现出卓越性能,通过有效融合不同模态信息实现了显著提升。本文首先对先前的token交换方法进行了批判性分析,指出这些方法通过用跨模态特征替换信息量较低的token来实现融合,然而实验表明,基于交换的策略在性能上仍逊于跨注意力机制(cross-attention)。尽管跨注意力机制具有更强的表达能力,但其固有的高计算开销限制了其在长序列输入场景下的应用。为克服这一计算瓶颈,本文提出GeminiFusion,一种基于像素级融合的新型方法,充分利用对齐的跨模态表示。GeminiFusion巧妙地结合了模内注意力(intra-modal attention)与模间注意力(inter-modal attention),动态整合各模态间的互补信息。我们引入层自适应噪声(layer-adaptive noise),在每一层上自适应调控两种注意力机制的交互强度,从而实现融合过程的协同优化。值得注意的是,GeminiFusion在输入token数量上保持线性时间复杂度,使得该多模态框架的运行效率可与单模态网络相媲美。在多模态图像到图像转换、3D目标检测以及任意模态语义分割等任务上的全面实验验证了GeminiFusion的优越性能,涵盖RGB、深度图、LiDAR、事件数据等多种模态。相关PyTorch代码已开源,地址为:https://github.com/JiaDingCN/GeminiFusion


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供