HyperAIHyperAI
il y a 2 mois

DiffDreamer : Vers une extrapolation de scène mono-œil cohérente et non supervisée avec des modèles de diffusion conditionnelle

Shengqu Cai; Eric Ryan Chan; Songyou Peng; Mohamad Shahbazi; Anton Obukhov; Luc Van Gool; Gordon Wetzstein
DiffDreamer : Vers une extrapolation de scène mono-œil cohérente et non supervisée avec des modèles de diffusion conditionnelle
Résumé

L'extrapolation de scène -- l'idée de générer des vues inédites en volant dans une image donnée -- est une tâche prometteuse, mais difficile. Pour chaque cadre prédit, il faut résoudre un problème conjoint d'interpolation et de raffinement 3D, qui est mal posé et comporte un niveau élevé d'ambiguïté. De plus, les données d'entraînement pour les scènes à longue portée sont difficiles à obtenir et manquent généralement de vues suffisantes pour inférer des poses caméra précises. Nous présentons DiffDreamer, un cadre non supervisé capable de synthétiser des vues inédites représentant une trajectoire caméra longue, tout en étant entraîné uniquement sur des images de scènes naturelles collectées sur Internet. En exploitant la nature stochastique des étapes de débruitage guidé, nous formons les modèles de diffusion à affiner les images RGBD projetées, mais conditionnons les étapes de débruitage sur plusieurs cadres passés et futurs pour l'inférence. Nous démontrons que les modèles de diffusion conditionnés par des images peuvent effectuer efficacement l'extrapolation de scènes à longue portée tout en préservant la cohérence bien mieux que les méthodes basées sur les GAN précédentes. DiffDreamer est une solution puissante et efficace pour l'extrapolation de scène, produisant des résultats impressionnants malgré une supervision limitée. Page du projet : https://primecai.github.io/diffdreamer.

DiffDreamer : Vers une extrapolation de scène mono-œil cohérente et non supervisée avec des modèles de diffusion conditionnelle | Articles de recherche récents | HyperAI