BlenderFusion : Édition visuelle basée sur le 3D et composition générative

Nous présentons BlenderFusion, un cadre de composition visuelle générative qui synthétise de nouvelles scènes en recomposant des objets, une caméra et un arrière-plan. Ce système suit un pipeline de stratification-édition-composition : (i) la segmentation et la conversion des entrées visuelles en entités 3D éditables (stratification), (ii) l'édition de ces entités dans Blender avec un contrôle ancré en 3D (édition), et (iii) leur fusion en une scène cohérente à l'aide d'un compositeur génératif (composition). Notre compositeur génératif étend un modèle de diffusion pré-entraîné pour traiter simultanément les scènes originales (source) et modifiées (cible). Il est affiné sur des images vidéo avec deux stratégies clés d'entraînement : (i) le masquage source, permettant des modifications flexibles telles que le remplacement d'arrière-plan ; (ii) le brouillage simulé des objets, facilitant un contrôle dissocié sur les objets et la caméra. BlenderFusion surpasse considérablement les méthodes précédentes dans les tâches complexes de modification compositionnelle de scènes.