HyperAIHyperAI

Command Palette

Search for a command to run...

وصفة لتوسيع نطاق توليد الفيديو من النص باستخدام مقاطع فيديو خالية من النص

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

الملخص

شهدت تقنيات توليد الفيديو من النص باستخدام التوزيع (Diffusion-based text-to-video generation) تقدماً ملحوظاً خلال العام الماضي، لكنها ما زالت تتخلف عن تقنيات توليد الصور من النص. أحد الأسباب الرئيسية هو الحد من حجم البيانات المتاحة علناً (مثلاً: 10 ملايين زوج من الفيديو والنص في WebVid10M مقابل 5 مليار زوج من الصورة والنص في LAION)، نظراً إلى التكلفة العالية لوضع عناوين نصية على الفيديوهات. في المقابل، يمكن جمع مقاطع غير مُعلَّمة بسهولة أكبر من منصات الفيديو مثل يوتيوب. مستوحين من هذه الفكرة، نقترح إطاراً جديداً لتوليد الفيديو من النص، يُسمى TF-T2V، الذي يمكنه التعلّم مباشرة من مقاطع فيديو بدون نص. والأساس وراء هذا المفهوم هو فصل عملية فك ترميز النص عن عملية النمذجة الزمنية. ولتحقيق ذلك، نستخدم فرع محتوى وفرع حركة، يتم تحسينهما معًا مع مشاركة الأوزان بينهما. وباتباع هذا النهج، درسنا تأثير مضاعفة حجم مجموعة التدريب (أي WebVid10M فقط بالفيديو) بإضافة بعض مقاطع الفيديو غير المُعلَّمة المُجمعة عشوائياً، ولاحظنا تحسناً ملحوظاً في الأداء (انخفض مؤشر FID من 9.67 إلى 8.19، وانخفض مؤشر FVD من 484 إلى 441)، مما يدل على قابلية التوسع في منهجنا. كما لاحظنا أن نموذجنا يمكنه تحقيق تحسن مستمر في الأداء (انخفض FID من 8.19 إلى 7.64، وانخفض FVD من 441 إلى 366) بعد إعادة إدخال بعض العلامات النصية في عملية التدريب. وأخيراً، قمنا بتأكيد فعالية وقابلية تعميم فكرتنا على كلا النموذجين: توليد الفيديو من النص الأصلي، وتوليد فيديو تكويني (compositional video synthesis). سيتم إتاحة الكود والنماذج للجمهور عبر الرابط: https://tf-t2v.github.io/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp