8 个月前

摘要

人类通常通过演员与周围环境之间的互动来感知视频中动作的建立。一个动作只有在视频中的主要演员开始与环境互动时才开始，而在主要演员停止互动时结束。尽管在时间动作提案生成方面取得了巨大进展，但大多数现有工作忽略了上述事实，将其模型学习生成动作的过程视为黑箱操作。本文中，我们尝试模拟人类的这一能力，提出了一种演员环境互动（Actor Environment Interaction, AEI）网络，以改进用于时间动作提案生成的视频表示。AEI 包含两个模块，即基于感知的视觉表示（Perception-based Visual Representation, PVR）和边界匹配模块（Boundary-matching Module, BMM）。PVR 通过提出的自适应注意力机制考虑了人与人之间的关系以及人与环境之间的关系，从而表示每个视频片段。随后，BMM 利用这些视频表示生成动作提案。我们在 ActivityNet-1.3 和 THUMOS-14 数据集上对 AEI 进行了全面评估，在时间动作提案和检测任务中使用了两种边界匹配架构（即基于卷积神经网络 [CNN] 和基于图卷积网络 [GCN] 的架构）以及两种分类器（即 Unet 和 P-GCN）。我们的 AEI 在时间动作提案生成和时间动作检测任务中均表现出色，显著优于现有的最先进方法，并且具有良好的泛化性能。

源 PDF