12 天前

M3TR:基于Transformer的多模态多标签识别

{Jia Li, Yifan Zhao, Jiawei Zhao}
摘要

多标签图像识别旨在一次性识别图像中的多个对象。近年来,针对该问题的研究主要聚焦于学习标签共现的依赖关系,以增强高层语义表征。然而,这些方法通常忽视了内在视觉结构的重要关联,难以准确理解上下文关系。为构建全局视觉上下文,并促进视觉模态与语言模态之间的交互,本文提出一种多模态多标签识别Transformer模型——M3TR(Multi-Modal Multi-label recognition TRansformers),其核心在于引入三元关系学习机制,以实现模态内与模态间关系的有效建模。在模态内部关系建模方面,我们创新性地结合卷积神经网络(CNN)与Transformer结构,通过学习语义交叉注意力机制,将视觉结构信息嵌入高层特征表示中。为构建视觉与语言模态之间的交互关系,我们设计了一种语言交叉注意力机制,将类别级别的语言信息融入视觉结构学习过程;进一步提出一种语言引导增强模块,用于提升高层语义表征的表达能力。实验结果表明,得益于三元关系的协同学习机制,所提出的M3TR模型在两个公开的多标签图像识别基准数据集上均取得了新的最先进性能,验证了其有效性与优越性。

M3TR:基于Transformer的多模态多标签识别 | 最新论文 | HyperAI超神经