il y a 2 jours

HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo

Voir les détails de l'article View Code

Résumé

La création de mondes 3D immersifs et interactifs à partir de textes ou d’images demeure un défi fondamental en vision par ordinateur et en graphisme. Les approches existantes de génération de mondes se divisent généralement en deux catégories : les méthodes basées sur des vidéos, qui offrent une grande diversité mais souffrent d’un manque de cohérence 3D et d’une inefficacité en rendu, et les méthodes basées sur des modèles 3D, qui garantissent une cohérence géométrique mais peinent face à des données d’entraînement limitées et à des représentations mémoire-intensives. Pour surmonter ces limites, nous proposons HunyuanWorld 1.0, un cadre novateur qui combine les avantages des deux approches pour générer des scènes 3D immersives, explorables et interactives à partir de conditions textuelles ou visuelles. Notre méthode présente trois avantages clés : 1) des expériences immersives à 360° grâce à des proxies mondiaux panoramiques ; 2) la possibilité d’exporter des maillages pour une intégration fluide dans les pipelines existants de graphisme informatique ; 3) des représentations d’objets déconnectées (disentangled), favorisant une interactivité accrue. Le cœur de notre cadre repose sur une représentation 3D par maillage stratifiée sémantiquement, qui utilise des images panoramiques comme proxies mondiaux à 360° pour une décomposition et une reconstruction du monde conscientes du sens, permettant ainsi la génération de mondes 3D diversifiés. Des expériences étendues montrent que notre méthode atteint un état de l’art en matière de génération de mondes 3D cohérents, explorables et interactifs, tout en ouvrant la voie à des applications polyvalentes dans le domaine de la réalité virtuelle, de la simulation physique, du développement de jeux vidéo et de la création de contenus interactifs.