منذ 4 أيام

∇NABLA: الانتباه المستوي الكتلي المتكيف مع الجوار

Dmitrii Mikhailov; Aleksey Letunovskiy; Maria Kovaleva; Vladimir Arkhipkin; Vladimir Korviakov; Vladimir Polovnikov; Viacheslav Vasilev; Evelina Sidorova; Denis Dimitrov

عرض تفاصيل الورقة البحثية

∇NABLA: الانتباه المستوي الكتلي المتكيف مع الجوار

الملخص

لقد أظهرت التطورات الأخيرة في معمارية المترجم (Transformer) نجاحًا ملحوظًا في مهام إنتاج الفيديو. ومع ذلك، ما زال التعقيد التربيعي لآليات الانتباه الكاملة عائقًا حاسمًا، خاصة في سلاسل الفيديو ذات الدقة العالية وطول المدة. في هذا المقال، نقترح NABLA، آلية انتباه مستوى المحيط (Neighborhood Adaptive Block-Level Attention) جديدة تتكيف ديناميكيًا مع أنماط الندرة في مترجمات الفيديو التنبؤية (DiTs). من خلال استخدام الانتباه المستوي مع عتبة مُحددة بناءً على الندرة، تقلل NABLA من التكلفة الحسابية مع الحفاظ على جودة الإنتاج. لا تتطلب طريقةنا تصميمًا خاصًا للعمليات منخفضة المستوى، ويمكن دمجها بسلاسة مع عامل الانتباه المرن (Flex Attention) في PyTorch. تُظهر التجارب أن NABLA تحقق سرعة تدريب واستنتاج تصل إلى 2.7 مرة مقارنة بالنموذج الأساسي، تقريبًا دون التأثير على المعايير الكمية (مثل مؤشر CLIP، مؤشر VBench، ونتائج التقييم البشري) أو تراجع جودة الجودة البصرية. يمكن الوصول إلى الكود ووزن النموذج من هنا: https://github.com/gen-ai-team/Wan2.1-NABLA