HyperAIHyperAI
vor 15 Tagen

MIDI: Multi-Instance Diffusion für die Generierung von 3D-Szenen aus einzelnen Bildern

{Lu Sheng, Yan-Pei Cao, Xihui Liu, Ding Liang, Zi-Xin Zou, Yangguang Li, Yunhan Yang, Xingqiao An, Yuan-Chen Guo, Zehuan Huang}
MIDI: Multi-Instance Diffusion für die Generierung von 3D-Szenen aus einzelnen Bildern
Abstract

Diese Arbeit stellt MIDI vor, ein neuartiges Paradigma zur kompositionellen Generierung von 3D-Szenen aus einer einzigen Bildquelle. Im Gegensatz zu bestehenden Methoden, die auf Rekonstruktions- oder Retrieval-Techniken basieren, oder zu jüngeren Ansätzen, die mehrstufige, objektweiser Generierung verwenden, erweitert MIDI vortrainierte Bild-zu-3D-Objekt-Generierungsmodelle zu Multi-Instance-Diffusionsmodellen. Dadurch wird die gleichzeitige Generierung mehrerer 3D-Instanzen mit präzisen räumlichen Beziehungen und hoher Generalisierbarkeit ermöglicht. Im Kern integriert MIDI eine neuartige Multi-Instance-Attention-Mechanismus, der inter-objektive Wechselwirkungen und räumliche Kohärenz direkt im Generierungsprozess effektiv erfasst, ohne komplizierte mehrstufige Abläufe zu erfordern. Das Verfahren verwendet teilweise Objektbilder sowie globale Szenenkontextinformationen als Eingaben und modelliert dabei die Objektfertigstellung direkt während der 3D-Generierung. Während des Trainings überwachen wir die Interaktionen zwischen 3D-Instanzen effizient mit einer begrenzten Menge an Szenen-Level-Daten, während Einzelobjektdaten zur Regularisierung herangezogen werden, um die vortrainierte Generalisierungsfähigkeit zu bewahren. MIDI zeigt state-of-the-art-Leistung bei der Bild-zu-Szene-Generierung und wurde anhand von Evaluierungen auf synthetischen Daten, realen Szenen-Daten sowie stilisierten Szenenbildern, die durch Text-zu-Bild-Diffusionsmodelle generiert wurden, validiert.

MIDI: Multi-Instance Diffusion für die Generierung von 3D-Szenen aus einzelnen Bildern | Neueste Forschungsarbeiten | HyperAI