Score Jacobian Chaining: Hochheben vortrainierter 2D-Diffusionsmodelle für die 3D-Generierung

Ein Diffusionsmodell lernt, ein Vektorfeld von Gradienten vorherzusagen. Wir schlagen vor, die Kettenregel auf die gelernten Gradienten anzuwenden und die Score-Funktion eines Diffusionsmodells rückwärts durch die Jacobi-Matrix eines differenzierbaren Renderers zu propagieren, den wir als Voxel-Radiance-Feld instanziieren. Diese Architektur aggregiert 2D-Scores aus mehreren Kameraperspektiven zu einem 3D-Score und adaptiert ein vortrainiertes 2D-Modell für die Generierung von 3D-Daten. Wir identifizieren eine technische Herausforderung, die sich aus einer Verteilungsmismatch-Problematik in diesem Anwendungsfall ergibt, und schlagen eine neuartige Schätzmethode zur Lösung dieser Herausforderung vor. Wir testen unseren Algorithmus an mehreren kommerziell verfügbaren Diffusionsbildgenerationsmodellen, darunter das kürzlich veröffentlichte Stable Diffusion, das auf dem großskaligen LAION-Datensatz trainiert wurde.