HyperAI

摘要

现有的多种静态图像目标检测器在视频序列中面临图像退化问题，例如运动模糊、相机失焦以及部分遮挡等。本文提出一种基于扩散模型的视频目标检测方法——DiffusionVID，该方法利用时空条件引导机制。受扩散模型的启发，DiffusionVID通过逐步将随机噪声框（noise boxes）去噪并优化，以恢复视频序列中原始的目标边界框。为有效从退化视频帧中精炼出准确的边界框，我们提出了三种创新方法：级联精炼（cascade refinement）、动态核心集条件引导（dynamic core-set conditioning）以及局部批量精炼（local batch refinement）。其中，级联精炼架构能够高效聚合目标区域的上下文信息；动态核心集条件引导则基于时空核心集（spatio-temporal core-set）自适应地生成条件引导信号，进一步提升去噪质量；局部批量精炼通过充分利用GPU的并行计算能力，显著加速了精炼过程。在广泛使用且标准的ImageNet-VID基准测试中，采用ResNet-101和Swin-Base作为主干网络的DiffusionVID分别实现了86.9 mAP @ 46.6 FPS和92.4 mAP @ 27.0 FPS的性能，达到当前最先进水平。据作者所知，这是首个基于扩散模型的视频目标检测器。相关代码与模型已开源，地址为：https://github.com/sdroh1027/DiffusionVID。

基准	方法	指标
video-object-detection-on-imagenet-vid	DiffusionVID (ResNet-101)	MAP : 87.1
video-object-detection-on-imagenet-vid	DiffusionVID (Swin-B)	MAP : 92.5

基准

方法

指标

video-object-detection-on-imagenet-vid

DiffusionVID (ResNet-101)

MAP : 87.1

video-object-detection-on-imagenet-vid

DiffusionVID (Swin-B)

MAP : 92.5

DiffusionVID：基于时空条件的去噪目标框用于视频目标检测

{Ki-Seok Chung Si-Dong Roh}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

DiffusionVID：基于时空条件的去噪目标框用于视频目标检测

{Ki-Seok Chung Si-Dong Roh}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters