17일 전
DDP: 밀집 시각 예측을 위한 확산 모델
Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo

초록
우리는 조건부 확산 파이프라인을 기반으로 한 단순하면서도 효율적이고 강력한 밀도 높은 시각 예측 프레임워크를 제안한다. 본 연구에서 제안하는 방법은 이미지를 기반으로 무작위 가우시안 분포로부터 점진적으로 노이즈를 제거하는 ‘노이즈 → 맵’ 생성 파라다임을 따르며, 예측을 수행한다. 이 방법은 DDP(Denoising Diffusion Pipeline)라고 명명되며, 현대적인 인식 파이프라인으로 노이즈 제거 확산 과정을 효율적으로 확장한다. 특별한 작업 맞춤형 설계나 아키텍처 최적화 없이도 DDP는 대부분의 밀도 높은 예측 작업, 예를 들어 의미 세분화(semantic segmentation) 및 깊이 추정(depth estimation)에 쉽게 일반화될 수 있다. 또한, 이전의 단일 단계 판별형 방법들과 달리 DDP는 동적 추론(dynamic inference)과 불확실성 인식(uncertainty awareness)과 같은 매력적인 특성을 보여준다. 다양한 6개의 벤치마크를 활용한 세 가지 대표적인 작업에서 최상의 성능을 입증하였으며, 특별한 기술적 꾸밈 없이도 전문가 수준의 모델들과 비교해도 최첨단 또는 경쟁 가능한 성능을 달성하였다. 예를 들어, Cityscapes에서 의미 세분화는 83.9 mIoU, nuScenes에서 BEV 맵 세분화는 70.6 mIoU, KITTI에서 깊이 추정은 0.05 REL을 기록하였다. 본 연구가 향후 연구의 견고한 기준이 되길 기대한다.