vor 2 Monaten

Lernen von 3D-Fotografie-Videos durch selbstüberwachte Diffusion auf einzelnen Bildern

Wang, Xiaodong ; Wu, Chenfei ; Yin, Shengming ; Ni, Minheng ; Wang, Jianfeng ; Li, Linjie ; Yang, Zhengyuan ; Yang, Fan ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan

Details der Forschungsarbeit anzeigen

Lernen von 3D-Fotografie-Videos durch selbstüberwachte Diffusion auf einzelnen Bildern

Abstract

Die 3D-Fotografie verwandelt ein statisches Bild in ein Video mit ansprechenden 3D-Visualeffekten. Bestehende Ansätze führen in der Regel zunächst eine monokulare Tiefenschätzung durch, rendern dann das Eingabebild zu nachfolgenden Bildern mit verschiedenen Betrachtungswinkeln und verwenden abschließend ein Inpainting-Modell, um die fehlenden oder verdeckten Bereiche auszufüllen. Das Inpainting-Modell spielt eine entscheidende Rolle für die Renderqualität, wird aber normalerweise mit außerdomänen Daten trainiert. Um den Abstand zwischen Training und Inferenz zu verringern, schlagen wir ein neues selbstüberwachtes Diffusionsmodell als Inpainting-Modul vor. Bei einem einzelnen Eingabebild konstruieren wir automatisch ein Trainingspaar bestehend aus dem maskierten verdeckten Bild und dem Originalbild durch zufälliges Zyklusrendering. Die erstellten Trainingsbeispiele sind eng an die Testinstanzen angepasst, ohne dass eine Datenauszeichnung erforderlich ist. Um die maskierten Bilder optimal zu nutzen, haben wir einen Maskierten Erweiterten Block (Masked Enhanced Block, MEB) entwickelt, der einfach in das UNet integriert werden kann und die semantischen Bedingungen verbessert. Für Animationen in der realen Welt stellen wir eine neue Aufgabe vor: Out-Animation, welche den räumlichen und zeitlichen Bereich der Eingabeobjekte erweitert. Ausführliche Experimente auf realen Datensätzen zeigen, dass unsere Methode vergleichbare Ergebnisse mit den existierenden state-of-the-art Methoden erzielt.