17 天前
DDP:用于密集视觉预测的扩散模型
Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo

摘要
我们提出了一种简单、高效且强大的密集视觉预测框架,该框架基于条件扩散(conditional diffusion)流程。我们的方法遵循“噪声到地图”(noise-to-map)的生成范式,通过逐步从随机高斯分布中去除噪声来实现预测,整个过程由输入图像引导。该方法被称为DDP(Denoising Diffusion Pipeline),能够高效地将去噪扩散过程融入现代感知流水线。无需针对特定任务进行专门设计或架构定制,DDP可轻松泛化至大多数密集预测任务,例如语义分割与深度估计。此外,与以往单步判别式方法相比,DDP展现出动态推理和不确定性感知等优异特性。在三个代表性任务上,我们基于六个不同基准进行了评估,未使用任何技巧性优化,DDP在各项任务中均取得了当前最优或具有竞争力的性能表现。例如,在Cityscapes数据集上实现83.9%的mIoU(语义分割),在nuScenes数据集上实现70.6%的mIoU(BEV地图分割),在KITTI数据集上实现0.05的REL误差(深度估计)。我们期望本方法能成为未来研究的坚实基线,推动相关领域的进一步发展。