vor 2 Monaten

BlenderFusion: 3D-gestütztes visuelles Bearbeiten und generatives Komponieren

Chen, Jiacheng, Mehran, Ramin, Jia, Xuhui, Xie, Saining, Woo, Sanghyun

Abstract

Wir stellen BlenderFusion vor, ein generatives visuelles Kompositing-Framework, das neue Szenen durch die Neuanordnung von Objekten, Kamera und Hintergrund synthetisiert. Es folgt einem Layering-Editing-Compositing-Prozess: (i) Segmentierung und Konvertierung visueller Eingaben in bearbeitbare 3D-Entitäten (Layering), (ii) Bearbeitung dieser Entitäten in Blender unter Verwendung von 3D-gestützter Steuerung (Editing), und (iii) Fusion der bearbeiteten Elemente zu einer kohärenten Szene mithilfe eines generativen Kompositors (Compositing). Unser generativer Kompositor erweitert ein vortrainiertes Diffusionsmodell, um sowohl die ursprünglichen (Quellen-) als auch die bearbeiteten (Ziel-)Szenen parallel zu verarbeiten. Er wird an Video-Einstellungen mit zwei wesentlichen Trainingsstrategien feinjustiert: (i) Quellenmaskierung, die flexible Modifikationen wie den Hintergrundwechsel ermöglicht; (ii) simulierter Objektjitter, der eine getrennte Steuerung von Objekten und Kamera erleichtert. BlenderFusion übertrifft bei komplexen Kompositionsaufgaben für Szenenbearbeitung deutlich frühere Methoden.