2 个月前

AOE-Net:基于自适应注意力机制的实体交互建模用于时间动作提议生成

Khoa Vo; Sang Truong; Kashu Yamazaki; Bhiksha Raj; Minh-Triet Tran; Ngan Le
AOE-Net:基于自适应注意力机制的实体交互建模用于时间动作提议生成
摘要

时间动作提案生成(TAPG)是一项具有挑战性的任务,需要在未剪辑的视频中定位动作区间。直观上,人类通过演员、相关物体和周围环境之间的互动来感知一个动作。尽管TAPG取得了显著进展,但现有的大多数方法忽视了这一人类感知过程的基本原则,将骨干网络应用于给定视频时将其视为黑盒。本文中,我们提出了一种多模态表示网络来建模这些互动,即演员-物体-环境交互网络(AOE-Net)。我们的AOE-Net由两个模块组成:基于感知的多模态表示(PMR)和边界匹配模块(BMM)。此外,我们在PMR中引入了自适应注意力机制(AAM),以专注于主要演员(或相关物体)并建模它们之间的关系。PMR模块通过视觉-语言特征表示每个视频片段,其中主要演员和周围环境由视觉信息表示,而相关物体则通过图像-文本模型中的语言特征进行描述。BMM模块以视觉-语言特征序列作为输入,并生成动作提案。在ActivityNet-1.3和THUMOS-14数据集上的全面实验和广泛的消融研究表明,我们提出的AOE-Net在TAPG和时间动作检测方面均显著优于先前的最先进方法,并且表现出优异的性能和泛化能力。为了证明AOE-Net的鲁棒性和有效性,我们进一步在以自我为中心的视频数据集EPIC-KITCHENS 100上进行了消融研究。源代码将在论文被接受后公开发布。