موديل توليد الفيديو التفاعلي من تencent يُحدث ثورة في توليد المشاهد ثلاثية الأبعاد بتحكم بالكاميرا
تُقدّم شركة تينسنت نموذج HunyuanWorld-Voyager، وهو إطار جديد لتصنيع مقاطع فيديو موزعة (Diffusion) يُولّد تسلسلات سحابية ثلاثية الأبعاد متسقة مع العالم من صورة واحدة، مع توجيه كاميرا مُعرّف مسبقًا من قبل المستخدم. يتميّز النموذج بقدرته على إنشاء مقاطع فيديو ثلاثية الأبعاد متسقة تُمكّن من استكشاف المشهد وفق مسار كاميرا مُخصّص، كما يُنتج فيديوًّا مُتماسكًا من الصور (RGB) والعمق (Depth) لتمكين إعادة بناء ثلاثي الأبعاد بسرعة وفعالية. يتكوّن النموذج من مكوّنين رئيسيين: أولاً، نموذج توليد فيديو متماسك مع العالم، يُولّد تسلسلات متماسكة من الصور والعمق مع الحفاظ على الاتساق الكلي. ثانيًا، نظام استكشاف طويل المدى يعتمد على ذاكرة مُستندة إلى العالم، مع تقنيات لتصفية النقاط وتحليل تسلسلي تلقائي يُمكّن من توسيع المشهد بشكل تدريجي مع الحفاظ على الاتساق السياقي. لتدريب النموذج، طوّرت تينسنت محرك بيانات قابل للتوسع، يُولّد تلقائيًا موضع الكاميرا وتوقعات العمق من مقاطع فيديو عشوائية، مما يُمكّن من جمع بيانات تدريب ضخمة (أكثر من 100 ألف مقطع) من مصادر حقيقية ومحاكاة باستخدام محرك Unreal Engine، دون الحاجة إلى تسميات ثلاثية الأبعاد يدويًا. في الاختبارات الكمية على معيار WorldScore Benchmark، تفوّق Voyager على النماذج السابقة في جميع المعايير، بما في ذلك الاتساق ثلاثي الأبعاد (81.56)، الاتساق البصري (85.99)، والجودة الموضوعية (71.09)، متفوّقًا بشكل ملحوظ على نماذج مثل WonderWorld وCogVideoX-I2V. لتشغيل النموذج، يتطلب النظام ذاكرة GPU بسعة 60 جيجابايت عند دقة 540 بكسل، ويُدعم التثبيت على أنظمة لينكس باستخدام CUDA 12.4 أو 11.8. يُمكن تنفيذ الاستدلال على وحدة واحدة أو عبر عدة وحدات باستخدام تقنية xDiT، التي تُقدّم حلولًا متوازية منخفضة التأخير، حيث تُقلّل زمن التوليد من 1925 ثانية على وحدة واحدة إلى 288 ثانية على 8 وحدات. يُقدّم المشروع أيضًا نموذجًا تجريبيًا عبر Gradio، يسمح للمستخدمين بتحميل صورة، اختيار اتجاه الكاميرا، وكتابة نص مُوجّه، ثم توليد فيديو RGB-D متكامل. كما يُتاح محرك البيانات المُستخدم في التدريب لتمكين الباحثين من إنشاء مجموعات بيانات مخصصة لتدريب نماذج مشابهة. يُعدّ هذا الإطلاق خطوة مهمة في مجال توليد المشاهد ثلاثية الأبعاد الديناميكية، ويُفتح آفاقًا واسعة لتطبيقات مثل الواقع الافتراضي، استكشاف المشاهد الافتراضية، والمحاكاة التفاعلية.