HyperAIHyperAI

Command Palette

Search for a command to run...

FreeLong++: توليد الفيديوهات الطويلة بدون تدريب عبر التكامل الطيفي متعدد الأحزمة

Yu Lu Yi Yang

الملخص

التطورات الحديثة في نماذج توليد الفيديو مكنت من إنتاج مقاطع فيديو قصيرة ذات جودة عالية من تعليمات النص. ومع ذلك، فإن توسيع هذه النماذج لتشمل مقاطع الفيديو الأطول لا يزال يشكل تحديًا كبيرًا، وذلك بشكل رئيسي بسبب تدهور التوافق الزمني والدقة البصرية. تظهر الملاحظات الأولية لدينا أن تطبيق نماذج توليد الفيديو القصير على سلاسل زمنية أطول يؤدي إلى انخفاض ملحوظ في الجودة. يحدد التحليل الأعمق اتجاهًا منهجيًا حيث تتزايد تشوهات المكونات ذات التردد العالي مع زيادة طول الفيديو، وهي مشكلة نطلق عليها اسم تشوه التردد العالي (high-frequency distortion).لمعالجة هذا الأمر، نقترح نظام FreeLong، وهو إطار عمل خالٍ من التدريب مصمم لتوازن توزيع التردد لميزات الفيديو الطويل أثناء عملية إزالة الضوضاء. يتمكن FreeLong من تحقيق هذا الهدف عبر دمج الميزات ذات التردد المنخفض عالميًا، التي تلتقط المعاني الشاملة عبر كامل الفيديو، مع الميزات ذات التردد العالي المحلية المستخرجة من نوافذ زمنية قصيرة للحفاظ على التفاصيل الدقيقة. بناءً على هذا الإطار، تم تصميم FreeLong++ لتوسيع تصميم FreeLong ثنائي الفروع إلى هندسة متعددة الفروع تحتوي على فروع انتباه متعددة تعمل كل منها بمقياس زمني مختلف.من خلال تنظيم أحجام النوافذ المتعددة من العنصر العالمي إلى العنصر المحلي، يمكن لـ FreeLong++ تحقيق دمج متعدد الحزم للترددين من المنخفض إلى العالي، مما يضمن الاستمرارية الدلالية وديناميكيات الحركة الدقيقة عبر سلاسل الفيديو الأطول. بدون أي تدريب إضافي، يمكن دمج FreeLong++ في نماذج توليد الفيديو الموجودة (مثل Wan2.1 و LTX-Video) لإنتاج مقاطع فيديو أطول بكثير مع تحسن كبير في التوافق الزمني والدقة البصرية. نوضح أن طريقتنا تتفوق على الأساليب السابقة في مهام إنتاج مقاطع الفيديو الأطول (مثل 4 أضعاف و8 أضعاف الطول الأصلي). كما أنها تدعم إنتاج الفيديو متعدد التعليمات بسلاسة انتقال المشاهد وتتيح إنتاج الفيديو القابل للتحكم باستخدام سلاسل عمق أو وضع طويلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
FreeLong++: توليد الفيديوهات الطويلة بدون تدريب عبر التكامل الطيفي متعدد الأحزمة | مستندات | HyperAI