SyncDreamer: Generierung von multiview-konsistenten Bildern aus einem einzigartigen Blickwinkelbild

In dieser Arbeit stellen wir ein neues Diffusionsmodell vor, das aus einem Einzelbild mehrblickwinkeltreue Bilder generiert. Unter Verwendung von vortrainierten großskaligen 2D-Diffusionsmodellen zeigt die jüngste Arbeit Zero123 die Fähigkeit, plausible neue Ansichten eines Objekts aus einem Einzelbild zu generieren. Dennoch bleibt es eine Herausforderung, Geometrie und Farben in den generierten Bildern konsistent zu halten. Um dieses Problem zu lösen, schlagen wir ein synchronisiertes Mehrblick-Diffusionsmodell vor, das die gemeinsame Wahrscheinlichkeitsverteilung von Mehrblickbildern modelliert und so die Generierung von mehrblickwinkeltreuen Bildern in einem einzigen Rückwärtsweg ermöglicht. SyncDreamer synchronisiert die Zwischenzustände aller generierten Bilder in jedem Schritt des Rückwärtswegs durch einen 3D-bewussten Feature-Aufmerksamkeitsmechanismus (3D-aware feature attention mechanism), der die entsprechenden Merkmale über verschiedene Ansichten hinweg korreliert. Experimente zeigen, dass SyncDreamer Bilder mit hoher Konsistenz über verschiedene Ansichten hinweg generiert, wodurch es sich gut für verschiedene 3D-Generierungsaufgaben wie Neublicksynthese (novel-view-synthesis), Text-zu-3D und Bild-zu-3D eignet.