
摘要
本文重点关注视频中识别人类活动的时间方面,这是一个长期以来被低估的重要视觉线索。我们重新审视了传统上对活动的定义,并将其限定为复杂动作(Complex Action):一系列具有较弱时间模式的一次性动作,这些动作共同服务于特定目的。相关研究通常使用固定内核大小的空间-时间3D卷积,这种方法过于僵化,难以捕捉复杂动作在时间范围上的多样性,且对于长距离时间建模来说太短。相比之下,我们采用了多尺度时间卷积,并降低了3D卷积的复杂度。由此产生了Timeception卷积层,该层能够推理长达数分钟的时间模式,比现有最佳相关工作的时间跨度长8倍。因此,Timeception在识别Charades、Breakfast Actions和MultiTHUMOS数据集中的人类活动方面取得了令人印象深刻的准确性。此外,我们还证明了Timeception能够学习长距离时间依赖关系,并容忍复杂动作的时间范围变化。