2 个月前

AOE-Net：基于自适应注意力机制的实体交互建模用于时间动作提议生成

Khoa Vo; Sang Truong; Kashu Yamazaki; Bhiksha Raj; Minh-Triet Tran; Ngan Le

摘要

时间动作提案生成（TAPG）是一项具有挑战性的任务，需要在未剪辑的视频中定位动作区间。直观上，人类通过演员、相关物体和周围环境之间的互动来感知一个动作。尽管TAPG取得了显著进展，但现有的大多数方法忽视了这一人类感知过程的基本原则，将骨干网络应用于给定视频时将其视为黑盒。本文中，我们提出了一种多模态表示网络来建模这些互动，即演员-物体-环境交互网络（AOE-Net）。我们的AOE-Net由两个模块组成：基于感知的多模态表示（PMR）和边界匹配模块（BMM）。此外，我们在PMR中引入了自适应注意力机制（AAM），以专注于主要演员（或相关物体）并建模它们之间的关系。PMR模块通过视觉-语言特征表示每个视频片段，其中主要演员和周围环境由视觉信息表示，而相关物体则通过图像-文本模型中的语言特征进行描述。BMM模块以视觉-语言特征序列作为输入，并生成动作提案。在ActivityNet-1.3和THUMOS-14数据集上的全面实验和广泛的消融研究表明，我们提出的AOE-Net在TAPG和时间动作检测方面均显著优于先前的最先进方法，并且表现出优异的性能和泛化能力。为了证明AOE-Net的鲁棒性和有效性，我们进一步在以自我为中心的视频数据集EPIC-KITCHENS 100上进行了消融研究。源代码将在论文被接受后公开发布。