GitHubで公開の「HunyuanWorld-Voyager」が、カメラパス制御による世界一貫性を持つRGB-D動画生成とリアルタイム3D再構築を実現
テンセントが開発したAIモデル「HunyuanWorld-Voyager」が、カメラパスを指定して3D世界を再現する動画生成技術として注目されている。このモデルは、1枚の画像とユーザーが定めたカメラの移動経路を入力として、RGBと深度(Depth)の動画を同時に生成し、世界一貫性のある3Dシーンを再現可能。特に、リアルタイムでの3D再構築をサポートしており、VRや仮想環境構築、映像制作、ゲーム開発などに応用が期待されている。 HunyuanWorld-Voyagerは、世界一貫性のある動画生成と、長距離のシーン拡張を実現する2つの主要な構成要素で構成される。まず、RGBと深度の動画を同時に生成する統合型拡散フレームワークにより、物理的な整合性と視覚的自然さを確保。次に、ポイントの削減と自動逐次推論を用いた効率的な世界キャッシュにより、長時間にわたるシーンの拡張も可能にした。モデルの学習には、実写映像とUnreal Engineによる合成映像を組み合わせた10万本以上の動画データセットを活用。手動での3Dアノテーションなしに大規模なデータ収集が可能になった点が技術的革新の一つ。 性能評価では、世界一貫性(WorldScore)ベンチマークで77.62点を記録し、他モデルを上回る結果を示した。特にカメラコントロール、物体制御、3D整合性、光度整合性、スタイル整合性の各項目で高いスコアを獲得。ユーザーは、Gradioによるデモツールで画像とカメラパスを指定し、テキストプロンプトを入力することで、リアルタイムなRGB-D動画を生成できる。 ただし、推論には60GBのGPUメモリを必要とし、単一GPUでの実行が基本。複数GPUでの並列処理にはxDiTというスケーラブルな推論エンジンを活用可能。8GPU環境では、512×768解像度、49フレームの生成で約288秒(約5分)の遅延で処理が可能。 このモデルは、AIによる3Dシーン生成の新たな基準を示しており、テンセントが進める「Hunyuan」シリーズの次世代技術として位置づけられている。研究や産業応用への貢献が期待される。