HunyuanWorld-Voyager : Un modèle de génération vidéo 3D interactif aux trajectoires caméra personnalisées
HunyuanWorld-Voyager est un modèle innovant de génération vidéo diffusion 3D, développé par Tencent, qui permet de produire des séquences vidéo cohérentes dans l’espace 3D à partir d’une seule image et d’une trajectoire de caméra définie par l’utilisateur. Ce système génère simultanément des vidéos RGB et profondeur alignées, offrant une reconstruction 3D en temps réel et une exploration interactive des scènes. L’un des atouts majeurs de Voyager réside dans sa capacité à maintenir une cohérence spatiale et temporelle sur de longues séquences, même lors d’explorations itératives de scènes complexes. Il repose sur deux composants clés : une architecture de diffusion vidéo cohérente avec le monde, qui génère conjointement les vidéos RGB et de profondeur, et un mécanisme d’exploration 3D à longue portée, intégrant une mémoire de scène efficace avec élagage de points et inférence auto-régressive pour garantir une cohérence contextuelle. Pour entraîner le modèle, les chercheurs ont conçu un moteur de données à grande échelle, automatisant l’estimation de la pose de caméra et la prédiction de profondeur à partir de vidéos réelles et synthétiques (via Unreal Engine), sans annotation 3D manuelle. Ce processus a permis de constituer un jeu de données comprenant plus de 100 000 clips vidéo diversifiés. Les résultats expérimentaux sur le benchmark WorldScore montrent que HunyuanWorld-Voyager bat tous les modèles concurrents dans plusieurs catégories : cohérence 3D (81,56), alignement de contenu (68,92), fidélité photométrique (85,99), et qualité subjective (71,09), se classant en tête sur l’ensemble des métriques. Le modèle nécessite une mémoire GPU de 60 Go pour une résolution de 540p (batch size = 1), et peut être exécuté sur une seule GPU ou en parallèle sur plusieurs GPUs via l’infrastructure xDiT, qui utilise la parallélisation séquentielle unifiée (USP) pour réduire significativement le temps de latence. Par exemple, avec 8 GPU H20, la génération d’une vidéo de 49 images à 50 étapes passe de 1925 secondes (1 GPU) à seulement 288 secondes (6,69x plus rapide). Une démonstration Gradio est disponible pour tester le modèle en ligne, permettant de charger une image, définir une trajectoire de caméra et générer une vidéo RGB-D personnalisée. HunyuanWorld-Voyager ouvre la voie à de nombreuses applications : création immersive de mondes virtuels, réalité augmentée, simulation 3D, robotique, et conception architecturale. En combinant génération vidéo, reconstruction 3D directe et contrôle de caméra, il représente une avancée majeure vers des environnements numériques dynamiques, cohérents et interactifs. Les chercheurs recommandent de citer l’article arXiv (2025) pour toute utilisation académique ou industrielle. L’outil est open source, avec un moteur de données public, et bénéficie du soutien de plusieurs projets open-source comme HunyuanWorld, Metric3D et MoGE.