
摘要
在本文中,我们介绍了从活动视频中学习潜在超级事件的概念,并展示了其如何有助于连续视频中的活动检测。我们将超级事件定义为多个事件以特定的时间组织形式同时出现在视频中的一组集合;它是子事件概念的对立面。现实世界中的视频包含多种活动,且很少被分割(例如,监控视频),而学习潜在超级事件可以使模型捕捉到视频中事件之间的时间关系。我们设计了时间结构滤波器,使模型能够专注于视频中的特定子区间,并将其与软注意力机制结合使用,以学习潜在超级事件的表示。超级事件表示与每帧或每段的卷积神经网络(CNN)相结合,提供帧级别的注释。我们的方法设计为完全可微分,从而可以端到端地联合学习潜在超级事件表示和使用这些表示的活动检测器。我们在多个公共视频数据集上的实验结果证实,所提出的潜在超级事件学习概念显著提升了活动检测的效果,推进了该领域的最先进水平。