HyperAIHyperAI

Command Palette

Search for a command to run...

PDAN:用于动作检测的金字塔空洞注意力网络

Francois Bremond Gianpiero Francesca Lorenzo Garattoni Luca Minciullo Srijan Das Rui Dai

摘要

处理长时序且复杂的时序信息是动作检测任务中的一个重要挑战,而这一挑战在未剪辑视频中密集分布的动作背景下进一步加剧。以往的动作检测方法在长视频中难以有效筛选关键时序信息。为此,我们提出了一种膨胀注意力层(Dilated Attention Layer, DAL)。与传统的时序卷积层相比,DAL在卷积核内的局部帧上分配注意力权重,从而能够更好地学习跨时间的局部表征。此外,我们进一步构建了金字塔膨胀注意力网络(Pyramid Dilated Attention Network, PDAN),其基础即为DAL。通过引入具有不同膨胀率的多个DAL,PDAN能够在低与高时间感受野层级上分别聚焦于局部时序片段,从而同时建模短时与长时序依赖关系。这一特性使PDAN能够有效处理长未剪辑视频中不同动作实例之间的复杂时序关联。为验证所提方法的有效性与鲁棒性,我们在三个密集标注且支持多标签的基准数据集上进行了评估:MultiTHUMOS、Charades 以及 Toyota Smarthome Untrimmed (TSU) 数据集。实验结果表明,PDAN在所有这些数据集上均优于此前的最先进方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供