11日前
DDP:密集視覚予測用拡散モデル
Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo

要約
我々は、条件付き拡散パイプラインに基づく、シンプルかつ効率的でありながら強力な密な視覚予測フレームワークを提案する。本手法は、画像に従ってランダムなガウス分布からノイズを段階的に除去する「ノイズからマップへ」という生成的アプローチを採用しており、予測を実現する。この手法はDDP(Denoising Diffusion Pipeline)と呼ばれ、従来のノイズ除去拡散プロセスを現代のビジョンパイプラインへ効率的に拡張するものである。タスク固有の設計やアーキテクチャのカスタマイズを必要とせず、セマンティックセグメンテーションや深度推定など、多くの密な予測タスクへ容易に一般化可能である。さらに、従来の単一ステップの判別型手法とは異なり、DDPは動的推論や不確実性認識といった魅力的な特性を備えている。代表的な3つのタスクについて6つの多様なベンチマークで評価した結果、いかなるテクニックを用いずに、専門家向けの既存手法と比較して、すべてのタスクで最先端(SOTA)または競争力のある性能を達成した。例えば、セマンティックセグメンテーション(Cityscapes:83.9 mIoU)、BEVマップセグメンテーション(nuScenes:70.6 mIoU)、深度推定(KITTI:0.05 REL)において優れた結果を示した。本研究が今後の研究の堅実なベースラインとして機能し、進展を促進することを期待している。