17 天前
高效视频目标检测中的注意力位置学习
Zhengkai Jiang, Yu Liu, Ceyuan Yang, Jihao Liu, Peng Gao, Qian Zhang, Shiming Xiang, Chunhong Pan

摘要
将现有的基于图像的目标检测器迁移至视频领域具有挑战性,因为视频帧的质量常受部分遮挡、罕见姿态和运动模糊等因素影响而下降。以往的方法通常利用光流扭曲(optical flow-warping)在视频帧之间传播和聚合特征,但直接将图像级光流应用于高层特征,可能难以建立准确的空间对应关系。为此,本文提出一种新型模块——可学习时空采样(Learnable Spatio-Temporal Sampling, LSTS),用于精确学习相邻帧特征之间的语义级对应关系。该模块首先随机初始化采样位置,随后通过迭代优化,在检测监督信号的逐步引导下,不断调整以获得更优的空间对应关系。此外,本文还引入了稀疏递归特征更新(Sparsely Recursive Feature Updating, SRFU)模块与密集特征聚合(Dense Feature Aggregation, DFA)模块,分别用于建模时序关系和增强单帧特征。在不依赖复杂附加组件的前提下,该方法在ImageNet VID数据集上取得了当前最优的性能表现,同时具备更低的计算复杂度和实时推理速度。代码将公开于:https://github.com/jiangzhengkai/LSTS。