HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels
La création de mondes 3D immersifs et interactifs à partir de textes ou d’images demeure un défi fondamental en vision par ordinateur et en graphisme. Les approches existantes de génération de mondes se divisent généralement en deux catégories : les méthodes basées sur des vidéos, qui offrent une grande diversité mais souffrent d’un manque de cohérence 3D et d’une inefficacité en rendu, et les méthodes basées sur des modèles 3D, qui garantissent une cohérence géométrique mais peinent face à des données d’entraînement limitées et à des représentations mémoire-intensives. Pour surmonter ces limites, nous proposons HunyuanWorld 1.0, un cadre novateur qui combine les avantages des deux approches pour générer des scènes 3D immersives, explorables et interactives à partir de conditions textuelles ou visuelles. Notre méthode présente trois avantages clés : 1) des expériences immersives à 360° grâce à des proxies mondiaux panoramiques ; 2) la possibilité d’exporter des maillages pour une intégration fluide dans les pipelines existants de graphisme informatique ; 3) des représentations d’objets déconnectées (disentangled), favorisant une interactivité accrue. Le cœur de notre cadre repose sur une représentation 3D par maillage stratifiée sémantiquement, qui utilise des images panoramiques comme proxies mondiaux à 360° pour une décomposition et une reconstruction du monde conscientes du sens, permettant ainsi la génération de mondes 3D diversifiés. Des expériences étendues montrent que notre méthode atteint un état de l’art en matière de génération de mondes 3D cohérents, explorables et interactifs, tout en ouvrant la voie à des applications polyvalentes dans le domaine de la réalité virtuelle, de la simulation physique, du développement de jeux vidéo et de la création de contenus interactifs.