Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

الملخص
الواقع هو رقصة بين القيود الصارمة والهياكل القابلة للتشوه. بالنسبة للنماذج الفيديو، يعني ذلك إنشاء حركة تحافظ على الدقة والبنية في آنٍ واحد. وعلى الرغم من التقدم المحرز في نماذج الانتشار (diffusion models)، ما زال إنتاج حركات واقعية تحافظ على البنية يُعد تحديًا كبيرًا، خصوصًا بالنسبة للأجسام المفصلية والقابلة للتشوه مثل البشر والحيوانات. حتى الآن، لم تُسهم زيادة حجم البيانات التدريبية وحدها في حل التحولات التي لا تتماشى مع القوانين الفيزيائية. تعتمد الطرق الحالية على التقييد باستخدام تمثيلات حركية مشوّشة، مثل التدفق البصري (optical flow) أو الهياكل العظمية (skeletons) المستخرجة باستخدام نموذج خارجي غير مثالي. لمعالجة هذه التحديات، نقدّم خوارزمية لاستخلاص مُقدّمات الحركة المُحافظة على البنية من نموذج تتبع فيديو ذاتي-مُتسلسل (autoregressive video tracking model) يُسمى SAM2، ودمجها في نموذج انتشار فيديو ثنائي الاتجاه (bidirectional video diffusion model) يُعرف بـ CogVideoX. وباستخدام منهجيتنا، نُدرّب نموذج SAM2VideoX، الذي يحتوي على Innovations (ابتكارات) مزدوجة: (1) وحدة دمج ميزات ثنائية الاتجاه (bidirectional feature fusion module) تُستخرج مُقدّمات الحركة المُحافظة على البنية على مستوى عالمي من نموذج تكراري مثل SAM2؛ (2) دالة خسارة "تدفق جرام المحلي" (Local Gram Flow loss) التي تُنسق حركة الميزات المحلية معًا. أظهرت التجارب على منصة VBench والدراسات البشرية أن SAM2VideoX يحقق مكاسب متسقة (+2.60% على VBench، وانخفاض بنسبة 21-22% في FVD، وترجيح بشري بنسبة 71.4%) مقارنةً بالأساليب السابقة. وبشكل خاص، حققنا في VBench نسبة 95.51%، متفوّقين على REPA (92.91%) بفارق 2.60%، وخفضنا FVD إلى 360.57، أي تحسّن بنسبة 21.20% و22.46% مقارنةً بـ REPA وLoRA-finetuning على التوالي. يمكن الاطلاع على موقع المشروع من خلال الرابط: https://sam2videox.github.io/ .
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.