HyperAIHyperAI

Command Palette

Search for a command to run...

أخبرني ما حدث: توحيد إكمال الفيديو الموجه بالنص من خلال توليد الفيديو المقنع متعدد الوسائط

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

الملخص

إعادة إنتاج فيديو بناءً على أول عدة إطارات ثابتة يُعدّ تحديًا كبيرًا، إذ يتطلب توقع إطارات مستقبلية معقولة مع الحفاظ على الاتساق الزمني. إلى جانب توقع الفيديو، فإن القدرة على التراجع من الإطار الأخير أو ملء الفجوات بين البداية والنهاية تعتبر أيضًا أمرًا بالغ الأهمية، لكنها نادراً ما تم استكشافها في سياق إكمال الفيديو. وبما أن تفسيرًا واحدًا فقط يمكن أن يُستنتج من إشارات محدودة في عدد قليل من الإطارات، فإن نظامًا قادرًا على تنفيذ إكمال الفيديو وفقًا لتعليمات لغوية طبيعية قد يُحسّن بشكل كبير من قابلية التحكم. مستوحى من هذه الفكرة، نُقدّم مهمة جديدة تُسمى "إكمال الفيديو المُوجه بالنص" (TVC)، والتي تطلب من النموذج إنتاج فيديو من إطارات جزئية موجهة بتعليمات نصية. ثم نقترح نموذجًا جديدًا يُسمى "إعادة إنتاج الفيديو المُقنّع متعدد الوسائط" (MMVG) لمعالجة هذه المهمة. أثناء التدريب، يقوم MMVG بتحويل الإطارات إلى رموز بصرية (visual tokens) ويعمل على إخفاء معظمها لتمكين إكمال الفيديو من أي نقطة زمنية. وفي مرحلة الاستدلال، يمكن لنموذج MMVG واحد التعامل مع جميع الحالات الثلاث لـ TVC، بما في ذلك توقع الفيديو، التراجع، وملء الفجوات، وذلك من خلال تطبيق شروط إخفاء مخصصة لكل حالة. وقد تم تقييم MMVG في سيناريوهات فيديو متنوعة، تشمل الفيديوهات ذات المنظور الشخصي (egocentric)، والرسوم المتحركة، والألعاب. أظهرت النتائج التجريبية الواسعة أن MMVG فعّال جدًا في إنتاج صور بصرية عالية الجودة بمساعدة التوجيه النصي لمهام إكمال الفيديو المُوجه بالنص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp