15 天前

多尺度多模态Transformer用于多模态动作识别

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Jingru Yi, Wentao Zhu}
多尺度多模态Transformer用于多模态动作识别
摘要

尽管动作识别多年来一直是研究热点,但现有大多数方法仅依赖视频模态,而人类在实际感知中能够高效地同时处理视觉与听觉线索。这一局限性导致现有模型的应用范围受限,仅适用于动作在视觉上具有明确表征的场景。另一方面,音频与视频信号均可在多层次结构中被感知——例如,从单个采样时刻的音频信号,到音频活动,再到整体的音频类别分类。为此,本文提出一种多尺度多模态Transformer(Multiscale Multimodal Transformer, MMT),其采用分层表征学习机制。具体而言,MMT由一种新型的多尺度音频Transformer(Multiscale Audio Transformer, MAT)与多尺度视频Transformer构成。此外,我们设计了一组多模态监督对比学习目标,称为音视频对比损失(Audio-Video Contrastive Loss, AVC)与模态内对比损失(Intra-Modal Contrastive Loss, IMC),以实现对双模态特征的精准对齐,从而提升多模态表征融合的鲁棒性。在不依赖外部训练数据的前提下,MMT在Kinetics-Sounds、Epic-Kitchens-100和VGGSound三个基准数据集上的Top-1准确率分别超越此前最先进方法7.3%、1.6%和2.1%。此外,所提出的MAT在三个公开基准数据集上的表现显著优于AST模型,分别提升22.2%、4.4%和4.7%,且在计算效率方面提升三倍(以浮点运算次数FLOPs衡量)。通过大量消融实验与可视化分析,我们验证了所提出的MMT能够有效从视频与音频信号的融合中提取出语义上更具区分性的特征表示。

多尺度多模态Transformer用于多模态动作识别 | 最新论文 | HyperAI超神经