18 天前

DiffusionVID:基于时空条件的去噪目标框用于视频目标检测

{Ki-Seok Chung, Si-Dong Roh}
摘要

现有的多种静态图像目标检测器在视频序列中面临图像退化问题,例如运动模糊、相机失焦以及部分遮挡等。本文提出一种基于扩散模型的视频目标检测方法——DiffusionVID,该方法利用时空条件引导机制。受扩散模型的启发,DiffusionVID通过逐步将随机噪声框(noise boxes)去噪并优化,以恢复视频序列中原始的目标边界框。为有效从退化视频帧中精炼出准确的边界框,我们提出了三种创新方法:级联精炼(cascade refinement)、动态核心集条件引导(dynamic core-set conditioning)以及局部批量精炼(local batch refinement)。其中,级联精炼架构能够高效聚合目标区域的上下文信息;动态核心集条件引导则基于时空核心集(spatio-temporal core-set)自适应地生成条件引导信号,进一步提升去噪质量;局部批量精炼通过充分利用GPU的并行计算能力,显著加速了精炼过程。在广泛使用且标准的ImageNet-VID基准测试中,采用ResNet-101和Swin-Base作为主干网络的DiffusionVID分别实现了86.9 mAP @ 46.6 FPS和92.4 mAP @ 27.0 FPS的性能,达到当前最先进水平。据作者所知,这是首个基于扩散模型的视频目标检测器。相关代码与模型已开源,地址为:https://github.com/sdroh1027/DiffusionVID。