
摘要
近年来,自动预测用户生成视频(User-Generated Videos, UGVs)情感的研究受到越来越多关注。然而,现有方法主要依赖于少数关键视觉帧,这可能限制了其对表达情感意图的上下文信息的建模能力。为解决这一问题,本文提出一种跨模态时间擦除网络(Cross-Modal Temporal Erasing Network),能够在弱监督条件下同时定位关键帧、上下文信息以及与音频相关的特征。具体而言,我们首先利用不同视频片段之间的模态内与模态间关系,精确筛选出关键帧;随后,通过迭代擦除关键帧的方式,促使模型更加关注包含互补信息的上下文区域。在三个具有挑战性的视频情感识别基准数据集上的大量实验表明,所提方法在性能上优于当前最先进的技术。代码已开源,地址为:https://github.com/nku-zhichengzhang/WECL。