منذ 11 أيام

وصفة لتوسيع نطاق توليد الفيديو من النص باستخدام مقاطع فيديو خالية من النص

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang

الملخص

شهدت تقنيات توليد الفيديو من النص باستخدام التوزيع (Diffusion-based text-to-video generation) تقدماً ملحوظاً خلال العام الماضي، لكنها ما زالت تتخلف عن تقنيات توليد الصور من النص. أحد الأسباب الرئيسية هو الحد من حجم البيانات المتاحة علناً (مثلاً: 10 ملايين زوج من الفيديو والنص في WebVid10M مقابل 5 مليار زوج من الصورة والنص في LAION)، نظراً إلى التكلفة العالية لوضع عناوين نصية على الفيديوهات. في المقابل، يمكن جمع مقاطع غير مُعلَّمة بسهولة أكبر من منصات الفيديو مثل يوتيوب. مستوحين من هذه الفكرة، نقترح إطاراً جديداً لتوليد الفيديو من النص، يُسمى TF-T2V، الذي يمكنه التعلّم مباشرة من مقاطع فيديو بدون نص. والأساس وراء هذا المفهوم هو فصل عملية فك ترميز النص عن عملية النمذجة الزمنية. ولتحقيق ذلك، نستخدم فرع محتوى وفرع حركة، يتم تحسينهما معًا مع مشاركة الأوزان بينهما. وباتباع هذا النهج، درسنا تأثير مضاعفة حجم مجموعة التدريب (أي WebVid10M فقط بالفيديو) بإضافة بعض مقاطع الفيديو غير المُعلَّمة المُجمعة عشوائياً، ولاحظنا تحسناً ملحوظاً في الأداء (انخفض مؤشر FID من 9.67 إلى 8.19، وانخفض مؤشر FVD من 484 إلى 441)، مما يدل على قابلية التوسع في منهجنا. كما لاحظنا أن نموذجنا يمكنه تحقيق تحسن مستمر في الأداء (انخفض FID من 8.19 إلى 7.64، وانخفض FVD من 441 إلى 366) بعد إعادة إدخال بعض العلامات النصية في عملية التدريب. وأخيراً، قمنا بتأكيد فعالية وقابلية تعميم فكرتنا على كلا النموذجين: توليد الفيديو من النص الأصلي، وتوليد فيديو تكويني (compositional video synthesis). سيتم إتاحة الكود والنماذج للجمهور عبر الرابط: https://tf-t2v.github.io/.