HyperAIHyperAI
il y a 17 jours

DDP : Modèle de diffusion pour la prédiction visuelle dense

Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo
DDP : Modèle de diffusion pour la prédiction visuelle dense
Résumé

Nous proposons un cadre simple, efficace et puissant pour les prédictions visuelles denses, fondé sur une chaîne de diffusion conditionnelle. Notre approche suit un paradigme génératif « bruit vers carte » pour la prédiction, en éliminant progressivement le bruit à partir d'une distribution gaussienne aléatoire, guidée par l'image d'entrée. Cette méthode, nommée DDP (Diffusion-based Dense Prediction), étend efficacement le processus de débruitage par diffusion dans les pipelines modernes de perception. Sans nécessiter de conception spécifique à la tâche ni d'adaptation architecturale, DDP se généralise facilement à la plupart des tâches de prédiction dense, telles que la segmentation sémantique ou l'estimation de profondeur. En outre, DDP présente des propriétés attractives, telles que l'inférence dynamique et la prise en compte de l'incertitude, en contraste avec les méthodes discriminatives à une seule étape précédentes. Nous obtenons des résultats de pointe sur trois tâches représentatives, évaluées sur six benchmarks variés. Sans recourir à des astuces spéciales, DDP atteint des performances état-de-l'art ou compétitives sur chaque tâche par rapport aux méthodes spécialisées. Par exemple, une mIoU de 83,9 sur Cityscapes pour la segmentation sémantique, une mIoU de 70,6 sur nuScenes pour la segmentation de carte BEV, et une erreur REL de 0,05 sur KITTI pour l'estimation de profondeur. Nous espérons que notre approche pourra servir de référence solide et stimuler les recherches futures dans ce domaine.

DDP : Modèle de diffusion pour la prédiction visuelle dense | Articles de recherche récents | HyperAI