HyperAIHyperAI
vor 18 Tagen

Sprachgesteuerte Szenensynthese mittels mehrfachbedingtem Diffusionsmodell

{Anh Nguyen, Thieu Vo, Dzung Nguyen, Baoru Huang, Toan Tien Nguyen, Minh Nhat Vu, An Vuong}
Sprachgesteuerte Szenensynthese mittels mehrfachbedingtem Diffusionsmodell
Abstract

Die Szenensynthese stellt eine anspruchsvolle Aufgabe mit zahlreichen industriellen Anwendungen dar. In jüngster Zeit wurden erhebliche Anstrengungen unternommen, um Szenen anhand menschlicher Bewegungen, Raumlayouts oder räumlicher Graphen als Eingabe zu generieren. Allerdings haben nur wenige Studien dieses Problem aus mehreren Modalitäten betrachtet, insbesondere unter Einbeziehung von Textprompten. In diesem Artikel stellen wir eine sprachgesteuerte Szenensyntheseaufgabe vor, die eine neue Aufgabenstellung darstellt, die Textprompte, menschliche Bewegungen und vorhandene Objekte zur Szenensynthese integriert. Im Gegensatz zu anderen Aufgaben mit einzelnem Bedingungsansatz beinhaltet unser Problem mehrere Bedingungen und erfordert eine Strategie zur Verarbeitung und Kodierung dieser in einen einheitlichen Raum. Um diese Herausforderung zu meistern, präsentieren wir ein mehrbedingtes Diffusionsmodell, das sich von der impliziten Vereinigungsmethode in anderen Diffusionsarbeiten durch die explizite Vorhersage von Leitpunkten für die ursprüngliche Datenausgangsverteilung unterscheidet. Wir zeigen, dass unser Ansatz theoretisch fundiert ist. Die umfangreichen experimentellen Ergebnisse belegen, dass unsere Methode die derzeit besten Benchmarks übertrifft und natürliche Anwendungen zur Szenenbearbeitung ermöglicht. Der Quellcode und das Datenset sind unter https://lang-scene-synth.github.io/ verfügbar.