2 个月前
EPIC-Fusion:以自我为中心的动作识别中的视听时间绑定
Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima

摘要
我们专注于以自我为中心的动作识别中的多模态融合,并提出了一种新颖的多模态时间绑定架构,即在一定时间偏移范围内对不同模态进行组合。该架构使用三种模态——RGB、光流(Flow)和音频(Audio)进行训练,并通过中层融合及稀疏的时间采样来结合这些模态的表示。与以往的研究相比,我们的方法是在时间聚合之前进行模态融合,并且在整个时间序列上共享模态和融合权重。所提出的架构实现了端到端的训练,在性能上超过了单独的模态以及后期融合的模态。我们在每个类别的基础上展示了音频在以自我为中心的视觉中对于识别动作及交互对象的重要性。我们的方法在所有评估指标上均达到了最先进的结果,这在最大的以自我为中心的数据集EPIC-Kitchens的已见测试集和未见测试集中得到了验证,使用的是公开排行榜上的数据。