HyperAI
Back to Headlines

آلية الانتباه الشعاعي تقلل من تكلفة إنشاء الفيديوهات الطويلة في نماذج الاندماج بنسبة 4.4 دون المساس بالجودة

منذ 2 أيام

كيف يخفض انتباه الدائرة التكلفة في نشر الفيديو بنسبة 4.4 مرة دون التضحية بالجودة مقدمة عن نماذج نشر الفيديو والتحديات الحسابية حققت نماذج النشر تقدمًا كبيرًا في إنتاج مقاطع الفيديو عالية الجودة والمنسجمة، مستندةً إلى نجاحها في توليد الصور. ومع ذلك، فإن التعامل مع البعد الزمني الإضافي في الفيديو يزيد بشكل كبير من متطلبات الحوسبة، خاصة أن انتباه الذات يزداد تكلفته مع زيادة طول التسلسل. هذا يجعل من الصعب تدريب أو تشغيل هذه النماذج بكفاءة على مقاطع الفيديو الطويلة. حاولت طرق مثل Sparse VideoGen تسريع الاستدلال باستخدام تصنيف رؤوس الانتباه، لكنها واجهت تحديات في الدقة والتوسع أثناء التدريب. فيما يستبدل بعض الأساليب انتباه softmax بالبدائل الخطية، مما يتطلب غالبًا تغييرات هيكلية كبيرة. تطور آليات الانتباه في تركيب الفيديو في البداية، أضافت نماذج الفيديو الأولى مكونات زمنية إلى هياكل الصور ثنائية الأبعاد، لكن الأساليب الحديثة مثل DiT وLatte تحسنت في النمذجة المكانية-الزمنية من خلال آليات انتباه متقدمة. بينما يحقق الانتباه الكثيف ثلاثي الأبعاد أفضل النتائج، فإن تكلفته الحوسبية تزداد بسرعة مع طول الفيديو، مما يجعل إنتاج مقاطع الفيديو الطويلة باهظة الثمن. تساعد تقنيات مثل تقطير الوقت، والكمية، والانتباه النادر على تخفيف هذا العبء، لكنها غالبًا ما تتجاهل البنية الفريدة لبيانات الفيديو. رغم أن بدائل مثل الانتباه الخطي أو الهرمي تحسن الكفاءة، إلا أنها عادةً ما تواجه صعوبة في الحفاظ على التفاصيل أو التوسع بشكل فعال في الممارسة العملية. مقدمة عن تناقص الطاقة المكانية-الزمنية والانتباه الدائري حدّد باحثون من معهد ماساتشوستس للتكنولوجيا (MIT)، نفيديا (NVIDIA)، جامعة برنستون (Princeton)، جامعة كاليفورنيا بيركلي (UC Berkeley)، جامعة ستانفورد (Stanford)، وأول فايسنتل (First Intelligence) ظاهرة في نماذج نشر الفيديو تُعرف باسم تناقص الطاقة المكانية-الزمنية (Spatiotemporal Energy Decay)، حيث تتراجع درجات الانتباه بين الرموز كلما زاد البعد المكاني أو الزمني، مشابهةً لطريقة تلاشي الإشارات بشكل طبيعي. انطلاقًا من هذا المبدأ، اقترحوا آليات الانتباه الدائري (Radial Attention)، وهي آليات انتباه نادرة تعتمد على تعقيد O(n log n). تستخدم هذه الآلية قناع انتباه ثابتًا حيث تركز الرموز بشكل أساسي على الرموز القريبة منها، مع تقلص نافذة الانتباه مع مرور الوقت. هذا يمكّن النماذج المدربة مسبقًا من إنتاج مقاطع فيديو أطول بأربع مرات، مع تخفيض تكلفة التدريب بنسبة 4.4 مرة وتقليل وقت الاستدلال بنسبة 3.7 مرة، مع الحفاظ على جودة الفيديو. الانتباه النادر باستخدام مبادئ تناقص الطاقة تعتمد آليات الانتباه الدائري على الرؤية بأن درجات الانتباه في نماذج الفيديو تنخفض مع زيادة البعد المكاني والزمني، وهو ما يعرف بتناقص الطاقة المكانية-الزمنية. بدلاً من معالجة جميع الرموز بالتساوي، تقلل آليات الانتباه الدائري الحسابات حيث تكون درجات الانتباه أضعف. تُدخل قناع انتباه نادرًا يتناقص بشكل أسي خارجًا في كل من المساحة والوقت، مما يحافظ فقط على التفاعلات الأكثر صلة. هذا يؤدي إلى تعقيد O(n log n)، مما يجعله أسرع بكثير وأكثر كفاءة من الانتباه الكثيف. بالإضافة إلى ذلك، يمكن تكييف النماذج المدربة مسبقًا بواسطة مكيفات LoRA لتقديم مقاطع فيديو أطول بكفاءة وفعالية. تقييم عبر نماذج نشر الفيديو الرائدة تم تقييم الانتباه الدائري على ثلاثة نماذج رائدة لتحويل النص إلى فيديو هي Mochi 1، HunyuanVideo، وWan2.1، مما أظهر تحسينات في السرعة وجودة الفيديو. مقارنة بالأساليب الحالية للانتباه النادر مثل Sparse VideoGen وPowerAttention، يقدم الانتباه الدائري جودة حسية أفضل ومكاسب حوسبية كبيرة، بما في ذلك سرعة الاستدلال بنسبة تصل إلى 3.7 مرة وتقليل تكلفة التدريب بنسبة 4.4 مرة لمقاطع الفيديو الممتدة. يتم توسيعه بكفاءة لأربع مرات أطول من طول الفيديو ويحافظ على التوافق مع مكيفات LoRA الموجودة، بما في ذلك تلك الخاصة بالنمط. من المهم أن التكييف الخفيف باستخدام مكيفات LoRA يتفوق على التكييف الكامل في بعض الحالات، مما يثبت فعاليته وكفاءته الموارد في إنتاج مقاطع فيديو طويلة بكفاءة عالية وجودة ممتازة. الختام: إنتاج الفيديو الطويل بكفاءة وفعالية باختصار، الانتباه الدائري هو آلية انتباه نادر مصممة لمعالجة إنتاج الفيديو الطويل في نماذج النشر بكفاءة عالية. مستوحاة من الانخفاض الملاحظ في درجات الانتباه مع زيادة البعد المكاني والزمني، تُحاكي هذه الآلية التلاشي الطبيعي لتقليل الحسابات. تستخدم نمط انتباه ثابت مع نوافذ تتناقص بشكل أسي، مما يحقق أداءً أسرع حتى 1.9 مرة ويدعم إنتاج مقاطع فيديو أطول بأربع مرات. مع التكييف الخفيف المستند إلى LoRA، يقلل بشكل كبير من تكلفة التدريب (بنسبة 4.4 مرة) ومدة الاستدلال (بنسبة 3.7 مرة)، مع الحفاظ على جودة الفيديو عبر العديد من النماذج الرائدة في مجال النشر. تقييم الحدث ونبذة عن الشركات المشاركة أكد باحثون متخصصون في مجال التعلم العميق على أن الانتباه الدائري يمثل خطوة مهمة نحو تحسين كفاءة نماذج نشر الفيديو، مما يفتح الباب لتطبيقات جديدة ومتقدمة. شملت الشركات المشاركة في هذا البحث معهد ماساتشوستس للتكنولوجيا (MIT)، نفيديا (NVIDIA)، جامعة برنستون (Princeton)، جامعة كاليفورنيا بيركلي (UC Berkeley)، جامعة ستانفورد (Stanford)، وأول فايسنتل (First Intelligence)، وهي مؤسسات رائدة في مجال البحث العلمي والتقني. يمكن للمهتمين بمتابعة هذا البحث زيارة الورقة العلمية والصفحة على GitHub للحصول على المزيد من التفاصيل.

Related Links