15 天前
多模态融合中的注意力瓶颈
Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, Chen Sun

摘要
人类通过同时处理并融合来自视觉、听觉等多种模态的高维输入来感知世界。相比之下,现有的机器感知模型通常具有模态专属性,且针对单模态基准进行优化,因此在多模态视频分类任务中,仍以在模型后期将各模态的最终表征或预测结果进行融合(即“晚期融合”)为主要范式。本文提出一种基于Transformer的新型架构,通过在多个网络层级引入“融合瓶颈”(fusion bottlenecks)实现多模态信息的融合。与传统的成对自注意力机制不同,该模型强制不同模态间的信息必须通过少量瓶颈隐变量进行传递,从而迫使模型在每种模态中提炼并压缩最相关的信息,仅共享必要的内容。我们发现,这种策略不仅提升了融合性能,同时显著降低了计算开销。通过全面的消融实验验证,该方法在多个音视频分类基准数据集(包括Audioset、Epic-Kitchens和VGGSound)上均取得了当前最优的性能表现。相关代码与模型将全部开源。