Sprachgesteuerte Szenensynthese mittels mehrfachbedingtem Diffusionsmodell

Die Szenensynthese stellt eine anspruchsvolle Aufgabe mit zahlreichen industriellen Anwendungen dar. In jüngster Zeit wurden erhebliche Anstrengungen unternommen, um Szenen anhand menschlicher Bewegungen, Raumlayouts oder räumlicher Graphen als Eingabe zu generieren. Allerdings haben nur wenige Studien dieses Problem aus mehreren Modalitäten betrachtet, insbesondere unter Einbeziehung von Textprompten. In diesem Artikel stellen wir eine sprachgesteuerte Szenensyntheseaufgabe vor, die eine neue Aufgabenstellung darstellt, die Textprompte, menschliche Bewegungen und vorhandene Objekte zur Szenensynthese integriert. Im Gegensatz zu anderen Aufgaben mit einzelnem Bedingungsansatz beinhaltet unser Problem mehrere Bedingungen und erfordert eine Strategie zur Verarbeitung und Kodierung dieser in einen einheitlichen Raum. Um diese Herausforderung zu meistern, präsentieren wir ein mehrbedingtes Diffusionsmodell, das sich von der impliziten Vereinigungsmethode in anderen Diffusionsarbeiten durch die explizite Vorhersage von Leitpunkten für die ursprüngliche Datenausgangsverteilung unterscheidet. Wir zeigen, dass unser Ansatz theoretisch fundiert ist. Die umfangreichen experimentellen Ergebnisse belegen, dass unsere Methode die derzeit besten Benchmarks übertrifft und natürliche Anwendungen zur Szenenbearbeitung ermöglicht. Der Quellcode und das Datenset sind unter https://lang-scene-synth.github.io/ verfügbar.