HyperAI
منذ يوم واحد

FreeLong++: توليد الفيديوهات الطويلة بدون تدريب عبر التكامل الطيفي متعدد الأحزمة

Yu Lu, Yi Yang
FreeLong++: توليد الفيديوهات الطويلة بدون تدريب عبر التكامل الطيفي متعدد الأحزمة
الملخص

التطورات الحديثة في نماذج توليد الفيديو مكنت من إنتاج مقاطع فيديو قصيرة ذات جودة عالية من تعليمات النص. ومع ذلك، فإن توسيع هذه النماذج لتشمل مقاطع الفيديو الأطول لا يزال يشكل تحديًا كبيرًا، وذلك بشكل رئيسي بسبب تدهور التوافق الزمني والدقة البصرية. تظهر الملاحظات الأولية لدينا أن تطبيق نماذج توليد الفيديو القصير على سلاسل زمنية أطول يؤدي إلى انخفاض ملحوظ في الجودة. يحدد التحليل الأعمق اتجاهًا منهجيًا حيث تتزايد تشوهات المكونات ذات التردد العالي مع زيادة طول الفيديو، وهي مشكلة نطلق عليها اسم تشوه التردد العالي (high-frequency distortion).لمعالجة هذا الأمر، نقترح نظام FreeLong، وهو إطار عمل خالٍ من التدريب مصمم لتوازن توزيع التردد لميزات الفيديو الطويل أثناء عملية إزالة الضوضاء. يتمكن FreeLong من تحقيق هذا الهدف عبر دمج الميزات ذات التردد المنخفض عالميًا، التي تلتقط المعاني الشاملة عبر كامل الفيديو، مع الميزات ذات التردد العالي المحلية المستخرجة من نوافذ زمنية قصيرة للحفاظ على التفاصيل الدقيقة. بناءً على هذا الإطار، تم تصميم FreeLong++ لتوسيع تصميم FreeLong ثنائي الفروع إلى هندسة متعددة الفروع تحتوي على فروع انتباه متعددة تعمل كل منها بمقياس زمني مختلف.من خلال تنظيم أحجام النوافذ المتعددة من العنصر العالمي إلى العنصر المحلي، يمكن لـ FreeLong++ تحقيق دمج متعدد الحزم للترددين من المنخفض إلى العالي، مما يضمن الاستمرارية الدلالية وديناميكيات الحركة الدقيقة عبر سلاسل الفيديو الأطول. بدون أي تدريب إضافي، يمكن دمج FreeLong++ في نماذج توليد الفيديو الموجودة (مثل Wan2.1 و LTX-Video) لإنتاج مقاطع فيديو أطول بكثير مع تحسن كبير في التوافق الزمني والدقة البصرية. نوضح أن طريقتنا تتفوق على الأساليب السابقة في مهام إنتاج مقاطع الفيديو الأطول (مثل 4 أضعاف و8 أضعاف الطول الأصلي). كما أنها تدعم إنتاج الفيديو متعدد التعليمات بسلاسة انتقال المشاهد وتتيح إنتاج الفيديو القابل للتحكم باستخدام سلاسل عمق أو وضع طويلة.