Command Palette
Search for a command to run...
HunyuanWorld 1.0: Erzeugung immersiver, erkundbarer und interaktiver 3D-Welten aus Worten oder Pixeln
HunyuanWorld 1.0: Erzeugung immersiver, erkundbarer und interaktiver 3D-Welten aus Worten oder Pixeln
HunyuanWorld Team Zhenwei Wang Yuhao Liu Junta Wu Zixiao Gu Haoyuan Wang Xuhui Zuo et al
Zusammenfassung
Die Erstellung immersiver und spielbarer 3D-Welten aus Text oder Bildern bleibt eine grundlegende Herausforderung in der Computer Vision und Grafik. Bestehende Ansätze zur Weltgenerierung lassen sich typischerweise in zwei Kategorien einteilen: videobasierte Methoden, die eine hohe Vielfalt bieten, jedoch an 3D-Konsistenz und Rendering-Effizienz leiden, und 3D-basierte Methoden, die geometrische Konsistenz gewährleisten, aber mit begrenzten Trainingsdaten und speicherintensiven Darstellungen kämpfen. Um diese Einschränkungen zu überwinden, präsentieren wir HunyuanWorld 1.0, einen neuartigen Rahmen, der die Vorzüge beider Ansätze vereint, um immersive, erkundbare und interaktive 3D-Szenen aus Text- und Bilddaten zu generieren. Unser Ansatz zeichnet sich durch drei zentrale Vorteile aus: 1) 360°-immersive Erlebnisse mittels panoramischer Welt-Proxy; 2) die Möglichkeit zum Export von Mesh-Dateien für eine nahtlose Kompatibilität mit bestehenden Computer-Graphics-Pipelines; 3) entkoppelte Objektdarstellungen zur Verbesserung der Interaktivität. Der Kern unseres Frameworks ist eine semantisch geschichtete 3D-Mesh-Darstellung, die panoramische Bilder als 360°-Welt-Proxy nutzt, um eine semantikbewusste Zerlegung und Rekonstruktion der Welt zu ermöglichen und somit die Generierung vielfältiger 3D-Welten zu realisieren. Ausführliche Experimente zeigen, dass unsere Methode die derzeit beste Leistung bei der Erzeugung kohärenter, erkundbarer und interaktiver 3D-Welten erzielt und vielseitige Anwendungen in Bereichen wie Virtual Reality, physikalische Simulation, Game-Entwicklung sowie interaktive Inhaltschaffung ermöglicht.