ABN:面向代理的边界网络用于时间动作提案生成

时间动作提案生成(Temporal Action Proposal Generation, TAPG)旨在估计未剪辑视频中动作的时间区间,这一任务虽然具有挑战性,但在许多视频分析和理解任务中扮演着重要角色。尽管在TAPG方面已经取得了显著成就,但大多数现有工作在应用深度学习模型作为黑盒提取视频视觉表示时,忽略了代理与周围环境之间的人类感知互动。因此,如果能够捕捉这些代理与环境之间的互动,将有助于提高TAPG的性能。本文提出了一种新的框架,称为代理感知边界网络(Agent-Aware Boundary Network, ABN),该框架由两个子网络组成:(i) 代理感知表示网络(Agent-Aware Representation Network),用于获取视频表示中的代理-代理关系和代理-环境关系;(ii) 边界生成网络(Boundary Generation Network),用于估计时间区间的置信度分数。在代理感知表示网络中,代理之间的互动通过局部路径表达,该路径在局部层面运行以关注代理的动作;而对周围环境的整体感知则通过全局路径表达,该路径在全局层面运行以感知代理-环境的影响。我们在包含20个动作的THUMOS-14数据集和包含200个动作的ActivityNet-1.3数据集上进行了全面评估,使用了不同的主干网络(即C3D、SlowFast和Two-Stream)。结果表明,无论采用哪种主干网络,我们提出的ABN在TAPG任务上均稳健地优于现有的最先进方法。此外,我们还通过将我们的方法生成的提案应用于时间动作检测(Temporal Action Detection, TAD)框架来进一步检验提案的质量,并评估其检测性能。源代码可在以下URL获取:https://github.com/vhvkhoa/TAPG-AgentEnvNetwork.git。