HyperAIHyperAI
منذ 7 أيام

أخبرني ما حدث: توحيد إكمال الفيديو الموجه بالنص من خلال توليد الفيديو المقنع متعدد الوسائط

Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell
أخبرني ما حدث: توحيد إكمال الفيديو الموجه بالنص من خلال توليد الفيديو المقنع متعدد الوسائط
الملخص

إعادة إنتاج فيديو بناءً على أول عدة إطارات ثابتة يُعدّ تحديًا كبيرًا، إذ يتطلب توقع إطارات مستقبلية معقولة مع الحفاظ على الاتساق الزمني. إلى جانب توقع الفيديو، فإن القدرة على التراجع من الإطار الأخير أو ملء الفجوات بين البداية والنهاية تعتبر أيضًا أمرًا بالغ الأهمية، لكنها نادراً ما تم استكشافها في سياق إكمال الفيديو. وبما أن تفسيرًا واحدًا فقط يمكن أن يُستنتج من إشارات محدودة في عدد قليل من الإطارات، فإن نظامًا قادرًا على تنفيذ إكمال الفيديو وفقًا لتعليمات لغوية طبيعية قد يُحسّن بشكل كبير من قابلية التحكم. مستوحى من هذه الفكرة، نُقدّم مهمة جديدة تُسمى "إكمال الفيديو المُوجه بالنص" (TVC)، والتي تطلب من النموذج إنتاج فيديو من إطارات جزئية موجهة بتعليمات نصية. ثم نقترح نموذجًا جديدًا يُسمى "إعادة إنتاج الفيديو المُقنّع متعدد الوسائط" (MMVG) لمعالجة هذه المهمة. أثناء التدريب، يقوم MMVG بتحويل الإطارات إلى رموز بصرية (visual tokens) ويعمل على إخفاء معظمها لتمكين إكمال الفيديو من أي نقطة زمنية. وفي مرحلة الاستدلال، يمكن لنموذج MMVG واحد التعامل مع جميع الحالات الثلاث لـ TVC، بما في ذلك توقع الفيديو، التراجع، وملء الفجوات، وذلك من خلال تطبيق شروط إخفاء مخصصة لكل حالة. وقد تم تقييم MMVG في سيناريوهات فيديو متنوعة، تشمل الفيديوهات ذات المنظور الشخصي (egocentric)، والرسوم المتحركة، والألعاب. أظهرت النتائج التجريبية الواسعة أن MMVG فعّال جدًا في إنتاج صور بصرية عالية الجودة بمساعدة التوجيه النصي لمهام إكمال الفيديو المُوجه بالنص.

أخبرني ما حدث: توحيد إكمال الفيديو الموجه بالنص من خلال توليد الفيديو المقنع متعدد الوسائط | أحدث الأوراق البحثية | HyperAI