HyperAIHyperAI

Command Palette

Search for a command to run...

Console

WorldPlay:リアルタイム相互作用型ワールドモデリングにおける長期的幾何的一貫性への道標

Wenqiang Sun Haiyu Zhang Haoyuan Wang Junta Wu Zehan Wang Zhenwei Wang Yunhong Wang Jun Zhang Tengfei Wang Chunchao Guo

Abstract

本稿では、現実的なリアルタイムかつインタラクティブな世界モデリングを実現し、長期的な幾何学的整合性を維持するストリーミング動画拡散モデル「WorldPlay」を提案する。このモデルは、従来の手法に見られる速度とメモリのトレードオフを克服するものである。WorldPlayの強力な性能は、以下の3つの鍵となる革新に起因する。1)ユーザーのキーボードおよびマウス入力に応じた堅牢なアクション制御を実現するため、二重アクション表現(Dual Action Representation) を採用している。2)長期的な整合性を確保するため、過去のフレームから動的にコンテキストを再構成する再構成コンテキストメモリ(Reconstituted Context Memory) を導入し、時間的フレーミング(temporal reframing)を用いて幾何学的に重要なが長時間前のフレームもアクセス可能に保つことで、メモリの減衰を効果的に緩和している。3)さらに、メモリ意識型モデル向けに設計された新しい蒸留手法であるコンテキスト強制(Context Forcing) を提案する。教師モデルと学生モデル間のメモリコンテキストを一致させることで、学生モデルが長距離情報を有効に活用できる能力を維持しつつ、リアルタイムでの処理速度を実現するとともに、誤差の累積(error drift)を防止する。これらの技術を統合したWorldPlayは、720pの長時間スパンのストリーミング動画を24FPSで生成可能であり、既存手法と比較して優れた整合性を発揮し、多様なシーンにおいて強力な汎化性能を示している。プロジェクトページおよびオンラインデモは以下のリンクからアクセス可能である:https://3d-models.hunyuan.tencent.com/world/およびhttps://3d.hunyuan.tencent.com/sceneTo3D


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています