HyperAIHyperAI
منذ 7 أيام

ماغديف: ديفوسيون متعددة التوافق للإيجاد والتحرير عالي الولادة للفيديوهات

Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang
ماغديف: ديفوسيون متعددة التوافق للإيجاد والتحرير عالي الولادة للفيديوهات
الملخص

يُستخدم نموذج الانتشار على نطاق واسع في إنشاء الفيديو أو تحريره. وبما أن كل مجال يواجه مشكلات محددة وفقًا للمهمة، فمن الصعب تطوير نموذج انتشار واحد قادر على إنجاز المهمتين معًا في آنٍ واحد. يمكن تكييف نموذج الانتشار المرتبط بالنص فقط لدمج المهمتين معًا، لكنه يعاني من قدرة منخفضة على محاذاة الوسائط المختلفة بين النص والصورة، ما يؤدي إلى مشكلات متنوعة في التحاذي. في هذا العمل، نحن أول من يقترح نموذجًا موحدًا لانتشار متعدد المحاذاة، يُسمى MagDiff، لإنجاز كلا المهمتين: إنشاء فيديو عالي الوضوح وتحريره. يُقدّم MagDiff ثلاثة أنواع من المحاذاة: المحاذاة المُوجهة بالعنصر الرئيسي، والمحاذاة التكيفية للنصوص، والمحاذاة عالية الوضوح. وبشكل خاص، تُقدّم المحاذاة المُوجهة بالعنصر الرئيسي لتوازن بين مدخلات الصورة والنص، كأساس موحد نموذج توليدي يُستخدم في المهمتين. وتُستخدم المحاذاة التكيفية للنصوص لتمييز القوة المختلفة بين المحاذاة المتجانسة وغير المتجانسة من خلال تعيين قيم مختلفة للوزن لكل من مدخلات الصورة والنص. كما تم تطوير المحاذاة عالية الوضوح لتعزيز الوضوح والدقة في كلا المهمتين من خلال إدخال صورة العنصر كمدخل إضافي للنموذج. تُظهر النتائج التجريبية على أربع معايير أن طريقةنا تتفوق على الطرق السابقة في كل مهمة.

ماغديف: ديفوسيون متعددة التوافق للإيجاد والتحرير عالي الولادة للفيديوهات | أحدث الأوراق البحثية | HyperAI