HyperAIHyperAI

Command Palette

Search for a command to run...

ماغديف: ديفوسيون متعددة التوافق للإيجاد والتحرير عالي الولادة للفيديوهات

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

الملخص

يُستخدم نموذج الانتشار على نطاق واسع في إنشاء الفيديو أو تحريره. وبما أن كل مجال يواجه مشكلات محددة وفقًا للمهمة، فمن الصعب تطوير نموذج انتشار واحد قادر على إنجاز المهمتين معًا في آنٍ واحد. يمكن تكييف نموذج الانتشار المرتبط بالنص فقط لدمج المهمتين معًا، لكنه يعاني من قدرة منخفضة على محاذاة الوسائط المختلفة بين النص والصورة، ما يؤدي إلى مشكلات متنوعة في التحاذي. في هذا العمل، نحن أول من يقترح نموذجًا موحدًا لانتشار متعدد المحاذاة، يُسمى MagDiff، لإنجاز كلا المهمتين: إنشاء فيديو عالي الوضوح وتحريره. يُقدّم MagDiff ثلاثة أنواع من المحاذاة: المحاذاة المُوجهة بالعنصر الرئيسي، والمحاذاة التكيفية للنصوص، والمحاذاة عالية الوضوح. وبشكل خاص، تُقدّم المحاذاة المُوجهة بالعنصر الرئيسي لتوازن بين مدخلات الصورة والنص، كأساس موحد نموذج توليدي يُستخدم في المهمتين. وتُستخدم المحاذاة التكيفية للنصوص لتمييز القوة المختلفة بين المحاذاة المتجانسة وغير المتجانسة من خلال تعيين قيم مختلفة للوزن لكل من مدخلات الصورة والنص. كما تم تطوير المحاذاة عالية الوضوح لتعزيز الوضوح والدقة في كلا المهمتين من خلال إدخال صورة العنصر كمدخل إضافي للنموذج. تُظهر النتائج التجريبية على أربع معايير أن طريقةنا تتفوق على الطرق السابقة في كل مهمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp