وان-موڤ: توليد فيديو قابِل للتحكم في الحركة من خلال التوجيه بالمسار الخفي
وان-موڤ: توليد فيديو قابِل للتحكم في الحركة من خلال التوجيه بالمسار الخفي

الملخص
نقدّم "وان-موڤ" (Wan-Move)، إطارًا بسيطًا وقابلًا للتوسع يُدخل التحكم في الحركة إلى نماذج توليد الفيديو. تُعاني الطرق الحالية للتحكم في الحركة من دقة تحكم خشنة وقابلية توسعة محدودة، مما يجعل نتائجها غير كافية للاستخدام العملي. ونُقلل هذه الفجوة من خلال تحقيق تحكم دقيق وعالي الجودة في الحركة. تكمن الفكرة الأساسية لدينا في جعل الميزات الشرطية الأصلية واعيةً للحركة، بهدف توجيه توليد الفيديو. ولتحقيق ذلك، نُمثّل حركات الكائنات باستخدام مسارات نقطية كثيفة، مما يسمح بتحكم دقيق في المشهد. ثم نُحول هذه المسارات إلى الفضاء اللاتيني (latent space)، ونُوزّع ميزات الإطار الأول على طول كل مسار، مما يُنتج خريطة ميزات فضائية-زمنية مُنسَّقة تُوضّح كيفية حركة كل عنصر في المشهد. تُستخدم هذه الخريطة كمُعطى لاتيني مُحدّث، وتُدمج بشكل طبيعي في نموذج الفيديو من صورة إلى صورة جاهز، مثل "وان-آي2ف-14ب" (Wan-I2V-14B)، كمرشد للحركة دون الحاجة إلى أي تغيير في البنية المعمارية. ويُزيل هذا النهج الحاجة إلى مشغلات حركة إضافية، ويُسهّل التكييف الدقيق للنماذج الأساسية على نطاق واسع. وباستخدام تدريب مُوسّع، يُنتج "وان-موڤ" فيديوهات بطول 5 ثوانٍ وبجودة 480 بكسل، حيث يُظهر التحكم في الحركة جودة تُقاس بمستوى "كلينج 1.5 برو" (Kling 1.5 Pro) في أدوات التحكم بالحركة التجارية، حسب دراسات المستخدمين. ولدعم تقييم شامل، صممنا أيضًا "موڤ-بينتش" (MoveBench)، معيارًا مُنتقى بدقة يضم فئات محتوى متنوعة وتعليقات مُحققة هجينة. ويتميز هذا المعيار بحجم بيانات أكبر، وفترة فيديو أطول، وتعليقات حركة عالية الجودة. وتشير التجارب الواسعة على MoveBench والبيانات العامة إلى تفوق "وان-موڤ" في جودة الحركة بشكل متسق. ويُتاح الكود والنموذج وبيانات المعيار للجمهور بشكل مفتوح.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.