
摘要
处理长时序且复杂的时序信息是动作检测任务中的一个重要挑战,而这一挑战在未剪辑视频中密集分布的动作背景下进一步加剧。以往的动作检测方法在长视频中难以有效筛选关键时序信息。为此,我们提出了一种膨胀注意力层(Dilated Attention Layer, DAL)。与传统的时序卷积层相比,DAL在卷积核内的局部帧上分配注意力权重,从而能够更好地学习跨时间的局部表征。此外,我们进一步构建了金字塔膨胀注意力网络(Pyramid Dilated Attention Network, PDAN),其基础即为DAL。通过引入具有不同膨胀率的多个DAL,PDAN能够在低与高时间感受野层级上分别聚焦于局部时序片段,从而同时建模短时与长时序依赖关系。这一特性使PDAN能够有效处理长未剪辑视频中不同动作实例之间的复杂时序关联。为验证所提方法的有效性与鲁棒性,我们在三个密集标注且支持多标签的基准数据集上进行了评估:MultiTHUMOS、Charades 以及 Toyota Smarthome Untrimmed (TSU) 数据集。实验结果表明,PDAN在所有这些数据集上均优于此前的最先进方法。