HyperAIHyperAI
Back to Headlines

HunyuanWorld-Voyager: Interaktive 3D-Videogenerierung mit Kamerapfad und Echtzeit-3D-Rekonstruktion

vor 6 Tagen

Tencent-Hunyuan stellt mit HunyuanWorld-Voyager ein bahnbrechendes Modell für die interaktive 3D-Szenengenerierung vor, das aus einer einzigen Bilddatei zusammenhängende, kameraorientierte RGB-D-Videos erzeugt. Im Gegensatz zu traditionellen Ansätzen, die nur statische 3D-Modelle oder kurze Animationen liefern, ermöglicht Voyager eine kontinuierliche, weltkonsistente Erkundung virtueller Szenen entlang benutzerdefinierter Kamerabahnen. Dabei werden gleichzeitig RGB-Bilder und Tiefeninformationen (Depth) generiert, was eine direkte und effiziente 3D-Rekonstruktion erlaubt – ein entscheidender Fortschritt für Anwendungen in der virtuellen Realität, Robotik und digitalen Zwillingen. Das Modell basiert auf einem neuartigen Video-Diffusion-Framework, das RGB- und Tiefen-Video sequenziell und konsistent generiert, unter Berücksichtigung der bereits vorhandenen Weltbeobachtungen. Ein zentrales Merkmal ist die langreichweitige Weltexploration, die durch einen effizienten „World Cache“ mit Punkt-Culling und autoregressiver Inferenz ermöglicht wird. Dies gewährleistet kontextbewusste Konsistenz über längere Sequenzen hinweg, selbst bei komplexen Szenen mit vielen Objekten und dynamischen Änderungen. Um das Modell zu trainieren, entwickelten die Forscher eine skalierbare Daten-Engine, die automatisch Kamerapose und metrische Tiefeninformationen aus beliebigen Videos extrahiert – ohne manuelle 3D-Annotationen. Mit dieser Methode wurde eine Datenmenge von über 100.000 Video-Clips aus realen Aufnahmen und synthetischen Unreal-Engine-Szenen erstellt, was die Vielfalt und Robustheit des Modells erheblich steigert. In quantitativen Tests auf dem WorldScore-Benchmark erreicht Voyager Spitzenwerte: Bei 77,62 Punkten liegt es deutlich vor Konkurrenten wie WonderWorld (72,69) und CogVideoX-I2V (62,15). Besonders hervorzuheben sind die Leistungen in 3D-Konsistenz (81,56), Photometrischer Konsistenz (85,99) und Stilübereinstimmung (84,89), was die hohe Qualität der generierten Szenen unterstreicht. Die Erzeugung eines 540p-Videos erfordert etwa 60 GB GPU-Speicher (Batch-Größe 1), wobei die Nutzung mehrerer GPUs über xDiT für parallele Inferenz optimiert ist – bei 8 H20-GPUs sinkt die Latenz auf nur 288 Sekunden für 49 Frames. Die Anwendungsmöglichkeiten sind vielfältig: von der virtuellen Stadterkundung über die Simulation von Robotik-Szenarien bis hin zur Erstellung von digitalen Zwillingen für industrielle Anwendungen. Die Open-Source-Veröffentlichung inklusive Demo, Gradio-Interface und Daten-Engine fördert die Forschung und Entwicklung in der 3D-Video-Generation erheblich. Experteneinschätzung: Industrieanalysten sehen in Voyager einen Meilenstein für die nächste Generation von generativen 3D-Modellen. „Es ist das erste Modell, das wirklich eine kontinuierliche, kameraorientierte Erkundung einer 3D-Welt ermöglicht, ohne dass die Konsistenz bricht“, sagt ein Experte von AI Research Insights. „Die Kombination aus automatischer Datenannotation und skalierbarer Inferenz macht es auch für industrielle Anwendungen zugänglich.“ HunyuanWorld-Voyager setzt neue Maßstäbe in der KI-gestützten 3D-Generierung und positioniert Tencent als führenden Akteur im Bereich multimodaler, world-consistent AI-Systeme.

Related Links