WorldPlay: نحو الاتساق الهندسي طويل المدى للنمذجة التفاعلية في الوقت الفعلي للعالم
WorldPlay: نحو الاتساق الهندسي طويل المدى للنمذجة التفاعلية في الوقت الفعلي للعالم
Wenqiang Sun Haiyu Zhang Haoyuan Wang Junta Wu Zehan Wang Zhenwei Wang Yunhong Wang Jun Zhang Tengfei Wang Chunchao Guo
Abstract
تقدم هذه الورقة نموذج WorldPlay، وهو نموذج تدفق فيديو مُتَنَوِّع (diffusion) يمكّن من نمذجة عالم تفاعلي في الوقت الفعلي مع اتساق هندسي طويل الأمد، مما يحل التناقض بين السرعة واستهلاك الذاكرة الذي يحد من الطرق الحالية. يعتمد WorldPlay على ثلاث ابتكارات رئيسية. 1) نستخدم تمثيلًا ثنائيًا للإجراءات (Dual Action Representation) لتمكين التحكم القوي في الإجراءات استجابةً لدخول المستخدم عبر لوحة المفاتيح والماوس. 2) لضمان الاتساق على المدى الطويل، يُعيد نموذج الذاكرة المُعاد بناؤها (Reconstituted Context Memory) بناءً على الإطارات السابقة، ويستخدم إعادة تشكيل زمني (temporal reframing) للحفاظ على إمكانية الوصول إلى الإطارات الهامة هندسيًا حتى لو كانت قديمة جدًا، مما يخفف بشكل فعّال من تدهور الذاكرة. 3) كما نقترح طريقة جديدة تُسمى "إجبار السياق" (Context Forcing)، وهي طريقة تقطيع (distillation) مبتكرة مصممة خصيصًا للنماذج التي تراعي الذاكرة. ويعمل توحيد سياق الذاكرة بين النموذج المُعلّم (teacher) والنموذج المُتعلم (student) على الحفاظ على قدرة الأخير على استخدام المعلومات على مدى طويل، مما يتيح سرعة في الوقت الفعلي مع منع التراكم التراكمي للأخطاء. وبشكل متكامل، يُنتج WorldPlay فيديو تدفقيًا بطول 720 بكسل بسرعة 24 إطارًا في الثانية، مع اتساق متميز، ويتفوق على التقنيات الحالية ويُظهر قدرة قوية على التعميم عبر مشاهد متنوعة. يمكن العثور على صفحة المشروع والعرض التجريبي عبر الإنترنت على: https://3d-models.hunyuan.tencent.com/world/ و https://3d.hunyuan.tencent.com/sceneTo3D.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.