Apprentissage de vidéos de photographie 3D par diffusion auto-supervisée sur des images uniques

La photographie 3D transforme une image statique en une vidéo dotée d'effets visuels 3D attrayants. Les approches existantes procèdent généralement d'abord à une estimation de profondeur monoculaire, puis rendent l'image d'entrée en des images successives avec divers points de vue, et enfin utilisent un modèle d'inpainting pour combler les régions manquantes ou occultées. Le modèle d'inpainting joue un rôle crucial dans la qualité du rendu, mais il est généralement formé sur des données hors domaine. Pour réduire l'écart entre la formation et l'inférence, nous proposons un nouveau modèle de diffusion auto-supervisé comme module d'inpainting. Étant donné une seule image d'entrée, nous construisons automatiquement un couple de formation composé de l'image masquée occultée et de l'image vérité-terrain avec un rendu cyclique aléatoire. Les échantillons de formation construits sont étroitement alignés sur les instances de test, sans nécessiter d'annotation de données. Pour tirer pleinement parti des images masquées, nous avons conçu un bloc amélioré masqué (Masked Enhanced Block - MEB), qui peut être facilement intégré au UNet et renforcer les conditions sémantiques. En direction de l'animation dans le monde réel, nous présentons une nouvelle tâche : l'out-animation, qui étend l'espace et le temps des objets d'entrée. De nombreuses expériences menées sur des jeux de données réels montrent que notre méthode obtient des résultats compétitifs par rapport aux méthodes SOTA existantes.