DiffDreamer: Auf dem Weg zu konsistenter unüberwachter Einzelansicht-Szene-Extrapolation mit bedingten Diffusionsmodellen

Szene-Extrapolation – die Idee, neue Ansichten durch das Fliegen in ein gegebenes Bild zu generieren – ist eine vielversprechende, aber auch herausfordernde Aufgabe. Für jedes vorhergesagte Frame muss ein kombiniertes Problem der Inpainting und 3D-Verfeinerung gelöst werden, das schlecht gestellt ist und einen hohen Grad an Ambiguität beinhaltet. Darüber hinaus ist Trainingsdaten für langreichweitige Szenen schwer zu beschaffen und fehlen in der Regel ausreichend Ansichten, um genaue Kamerapositionen abzuleiten. Wir stellen DiffDreamer vor, ein unüberwachtes Framework, das in der Lage ist, neue Ansichten entlang einer langen Kameratrajektorie zu synthetisieren, während es ausschließlich auf im Internet gesammelten Naturbildern trainiert wird. Durch die Nutzung der stochastischen Natur der geführten Entvernischungsschritte trainieren wir die Diffusionsmodelle, projizierte RGBD-Bilder zu verfeinern, aber konditionieren die Entvernischungsschritte bei der Inferenz auf mehrere vergangene und zukünftige Frames. Wir zeigen, dass bildbasierte Diffusionsmodelle effektiv langreichweitige Szene-Extrapolation durchführen können und dabei die Konsistenz erheblich besser bewahren als frühere GAN-basierte Methoden. DiffDreamer ist eine leistungsfähige und effiziente Lösung für die Szene-Extrapolation, die beeindruckende Ergebnisse liefert, trotz begrenzter Überwachung. Projektseite: https://primecai.github.io/diffdreamer.