∇NABLA: الانتباه المستوي الكتلي المتكيف مع الجوار

لقد أظهرت التطورات الأخيرة في معمارية المترجم (Transformer) نجاحًا ملحوظًا في مهام إنتاج الفيديو. ومع ذلك، ما زال التعقيد التربيعي لآليات الانتباه الكاملة عائقًا حاسمًا، خاصة في سلاسل الفيديو ذات الدقة العالية وطول المدة. في هذا المقال، نقترح NABLA، آلية انتباه مستوى المحيط (Neighborhood Adaptive Block-Level Attention) جديدة تتكيف ديناميكيًا مع أنماط الندرة في مترجمات الفيديو التنبؤية (DiTs). من خلال استخدام الانتباه المستوي مع عتبة مُحددة بناءً على الندرة، تقلل NABLA من التكلفة الحسابية مع الحفاظ على جودة الإنتاج. لا تتطلب طريقةنا تصميمًا خاصًا للعمليات منخفضة المستوى، ويمكن دمجها بسلاسة مع عامل الانتباه المرن (Flex Attention) في PyTorch. تُظهر التجارب أن NABLA تحقق سرعة تدريب واستنتاج تصل إلى 2.7 مرة مقارنة بالنموذج الأساسي، تقريبًا دون التأثير على المعايير الكمية (مثل مؤشر CLIP، مؤشر VBench، ونتائج التقييم البشري) أو تراجع جودة الجودة البصرية. يمكن الوصول إلى الكود ووزن النموذج من هنا: https://github.com/gen-ai-team/Wan2.1-NABLA