11 天前
PAT:用于密集多标签动作检测的位置感知Transformer
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton

摘要
我们提出PAT(Position-aware Transformer),一种基于Transformer的网络架构,通过利用多尺度时间特征,学习视频中复杂的时间共现动作依赖关系。在现有方法中,Transformer中的自注意力机制会丢失关键的时间位置信息,而这一信息对于鲁棒的动作检测至关重要。为解决该问题,我们(i)在自注意力机制中引入相对位置编码,以保留时间位置信息;(ii)设计了一种新颖的非分层网络结构,以捕捉多尺度时间关系,这与近期基于Transformer的方法所采用的分层结构形成对比。我们认为,分层结构中将自注意力机制与多级下采样过程相结合,会导致位置信息的显著丢失。我们在两个具有挑战性的密集多标签基准数据集上评估了所提方法的性能,结果表明,PAT在Charades数据集和MultiTHUMOS数据集上分别将当前最优结果提升了1.1%和0.6%的mAP,分别达到新的最先进水平——26.5%和44.6%的mAP。此外,我们还进行了广泛的消融实验,以系统分析所提出网络中各组件的贡献与影响。