18 天前

短时锚点关联与长时自引导注意力用于视频目标检测

{Manuel Mucientes, Víctor M Brea, Daniel Cores}
摘要

我们提出一种新型网络架构,能够充分利用视频中蕴含的时空信息,以提升目标检测的精度。首先,通过关联并聚合来自相邻帧中同一锚框(anchor box)的检测建议框(proposal),实现框特征的初步融合。随后,我们设计了一种新型注意力模块,用于聚合短期增强的框特征,从而挖掘长期的时空信息。该模块首次在视频目标检测领域引入了对长期几何特征的利用。最后,一个时空双头结构被引入,其同时接收参考帧的空间信息以及融合了短期与长期时序上下文的聚合信息。我们在五个具有显著差异特性的视频目标检测数据集上对所提方法进行了测试,以验证其在多种场景下的鲁棒性。非参数统计检验结果表明,我们的方法优于当前最先进的技术。相关代码已开源,地址为:https://github.com/daniel-cores/SLTnet。