HyperAI
vor einem Tag

HunyuanWorld 1.0: Erzeugung immersiver, erkundbarer und interaktiver 3D-Welten aus Text oder Pixeln

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
Abstract

Die Erzeugung immersiver und spielbarer 3D-Welten aus Texten oder Bildern stellt weiterhin eine grundlegende Herausforderung in der Computer Vision und Grafik dar. Bestehende Ansätze zur Weltgenerierung lassen sich typischerweise in zwei Kategorien einteilen: videobasierte Methoden, die eine hohe Vielfalt bieten, jedoch an mangelnder 3D-Konsistenz und ineffizienter Darstellung leiden, sowie 3D-basierte Methoden, die geometrische Konsistenz gewährleisten, jedoch mit begrenzten Trainingsdaten und speicherintensiven Darstellungen kämpfen. Um diese Einschränkungen zu überwinden, präsentieren wir HunyuanWorld 1.0, einen neuartigen Ansatz, der die Stärken beider Herangehensweisen vereint, um immersive, erkundbare und interaktive 3D-Szenen aus textuellen und bildlichen Eingaben zu generieren. Unser Ansatz zeichnet sich durch drei zentrale Vorteile aus: 1) 360°-immersive Erlebnisse mittels panoramischer Welt-Proxy-Modelle; 2) die Möglichkeit, Mesh-Dateien zu exportieren, was eine nahtlose Kompatibilität mit bestehenden Computer-Graphics-Pipelines ermöglicht; 3) entkoppelte Objektdarstellungen zur Verbesserung der Interaktivität. Der Kern unseres Frameworks ist eine semantisch geschichtete 3D-Mesh-Darstellung, die panoramische Bilder als 360°-Welt-Proxy für eine semantikbewusste Zerlegung und Rekonstruktion der Welt nutzt, wodurch die Generierung vielfältiger 3D-Welten möglich wird. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art-Leistung bei der Erzeugung kohärenter, erkundbarer und interaktiver 3D-Welten erzielt und vielseitige Anwendungen in Bereichen wie Virtual Reality, physikalische Simulation, Game-Entwicklung und interaktive Inhaltschaffung ermöglicht.