摘要
在视频中检测目标,即视频目标检测(Video Object Detection, VOD),具有挑战性,因为目标在时间维度上的外观变化可能导致检测误差。近年来的研究致力于通过融合相邻帧的特征来补偿某一帧中目标外观的退化。此外,也有研究提出利用远距离帧的信息来应对连续多帧中目标外观的显著退化问题。由于在远距离帧中目标位置可能发生显著偏移,这些方法仅使用不依赖于位置的目标候选区域特征。然而,这类方法严重依赖于候选区域检测的性能,在目标外观严重退化的情况下实用性受限。本文提出在目标候选区域检测之前,对特征进行逐元素增强,提出一种基于注意力引导记忆的视频稀疏变换器(Video Sparse Transformer with Attention-guided Memory, VSTAM)。此外,我们采用稀疏方式聚合逐元素特征,以降低计算时间和内存开销。同时,引入一种基于特征聚合利用情况的外部记忆更新策略,有效保持长期信息。实验结果表明,所提方法在ImageNet VID和UA-DETRAC数据集上分别相对于基线模型取得了8.3%和11.1%的准确率提升。在多个广泛使用的VOD数据集上,本方法在性能上显著优于当前最先进的技术。