MIDI : Diffusion Multi-Instances pour la Génération de Scènes 3D à Partir d'une Seule Image

Cet article présente MIDI, un nouveau paradigme pour la génération compositionnelle de scènes 3D à partir d’une seule image. Contrairement aux méthodes existantes qui reposent sur des techniques de reconstruction ou de recherche, ou aux approches récentes basées sur une génération étape par étape des objets, MIDI étend les modèles pré-entraînés de génération d’objets 3D à partir d’images à des modèles de diffusion multi-instance, permettant ainsi la génération simultanée de plusieurs instances 3D tout en préservant des relations spatiales précises et une grande généralisation. Au cœur de MIDI se trouve un mécanisme d’attention multi-instance novateur, qui capte efficacement les interactions entre objets et la cohérence spatiale directement au sein du processus de génération, sans nécessiter de procédés complexes à plusieurs étapes. La méthode utilise des images partielles d’objets ainsi que le contexte global de la scène comme entrées, modélisant directement la complétion des objets durant la génération 3D. Lors de l’entraînement, nous supervisons efficacement les interactions entre les instances 3D à l’aide d’un volume limité de données au niveau de la scène, tout en intégrant des données sur des objets individuels pour la régularisation, ce qui permet de préserver l’aptitude de généralisation du modèle pré-entraîné. MIDI obtient des performances de pointe dans la tâche de génération de scène à partir d’image, confirmées par des évaluations sur des données synthétiques, des données réelles de scènes et des images stylisées de scènes générées par des modèles de diffusion texte-à-image.