17 天前

TransVOD:基于时空Transformer的端到端视频目标检测

Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao
TransVOD:基于时空Transformer的端到端视频目标检测
摘要

检测变压器(DETR)及其改进模型可变形DETR(Deformable DETR)被提出,旨在消除目标检测中大量手工设计组件的依赖,同时在性能上展现出与以往复杂手工设计检测器相当甚至更优的表现。然而,这些模型在视频目标检测(Video Object Detection, VOD)任务上的表现尚未得到充分探索。本文提出TransVOD,这是首个基于时空Transformer架构的端到端视频目标检测系统。本文的首要目标是简化视频目标检测的处理流程,有效去除多种手工设计的特征聚合组件,例如光流模型和关系网络等。此外,得益于DETR中对象查询(object query)的设计,我们的方法无需依赖复杂的后处理技术(如Seq-NMS)。具体而言,我们引入了一种时间Transformer模块,用于融合每一帧的空间对象查询与特征记忆(feature memory)。该时间Transformer由两个核心组件构成:时间查询编码器(Temporal Query Encoder, TQE),用于融合对象查询;以及时间可变形解码器(Temporal Deformable Transformer Decoder, TDTD),用于生成当前帧的检测结果。上述设计显著提升了基准模型——可变形DETR的性能,在ImageNet VID数据集上实现了3%至4%的mAP提升。随后,我们进一步提出了TransVOD的两个改进版本:TransVOD++与TransVOD Lite。前者通过动态卷积将对象级信息融合进对象查询,增强特征表达能力;后者则将整个视频片段作为统一输出,以大幅加速推理速度。我们在实验部分对这三个模型进行了详尽的分析。特别地,所提出的TransVOD++在ImageNet VID数据集上以90.0%的mAP刷新了当前最优准确率纪录,达到新的SOTA水平。而TransVOD Lite在保持高性能的同时实现了最佳的推理速度与精度权衡,在单张V100 GPU上可实现约30 FPS的推理速度,mAP达到83.7%。