Score Jacobian Chaining : Leveraging des modèles de diffusion 2D pré-entraînés pour la génération 3D

Un modèle de diffusion apprend à prédire un champ vectoriel de gradients. Nous proposons d'appliquer la règle de dérivation des fonctions composées aux gradients appris, et de rétropropager le score d'un modèle de diffusion à travers la jacobienne d'un rendu différentiable, que nous instancions sous la forme d'un champ de radiance volumique (voxel radiance field). Ce cadre permet d'agrégater les scores 2D issus de plusieurs points de vue caméra en un score 3D, et de réutiliser un modèle pré-entraîné en 2D pour la génération de données en 3D. Nous identifions un défi technique lié à un désaccord de distribution qui surgit dans cette application, et proposons un mécanisme d'estimation novateur pour le résoudre. Nous évaluons notre algorithme sur plusieurs modèles de génération d'images par diffusion disponibles commercialement, y compris le modèle récemment publié Stable Diffusion, entraîné sur le grand ensemble de données LAION.