HyperAI
منذ 17 أيام

PAROAttention: إعادة ترتيب واعية للأنماط لتحسين كفاءة الانتباه النادر والمكاني في نماذج التوليد البصري

Zhao, Tianchen ; Hong, Ke ; Yang, Xinhao ; Xiao, Xuefeng ; Li, Huixia ; Ling, Feng ; Xie, Ruiqi ; Chen, Siqi ; Zhu, Hongyu ; Zhang, Yichong ; Wang, Yu
PAROAttention: إعادة ترتيب واعية للأنماط لتحسين كفاءة الانتباه النادر والمكاني في نماذج التوليد البصري
الملخص

في توليد الصور، يؤدي التعقيد التربيعي لآليات الانتباه إلى زيادة كبيرة في تكاليف الذاكرة والحسابات، خاصة بالنسبة للسلسلات الطويلة من الرموز المطلوبة في توليد الصور عالية الدقة أو الفيديوهات متعددة الإطارات. لحل هذه المشكلة، استكشفت الأبحاث السابقة تقنيات مثل الندرة (sparsification) والتكميم (quantization). ومع ذلك، تواجه هذه التقنيات تحديات كبيرة عند الكثافة المنخفضة وعرض البت المخفض. من خلال تحليل منهجي، حددنا أن الصعوبة الأساسية تنبع من الخصائص المتفرقة وغير المنتظمة لأنماط الانتباه البصرية. لذلك، بدلاً من تقديم تصاميم ندرة وتكميم مخصصة لتلبية هذه الأنماط، نقترح استراتيجية بديلة: إعادة تنظيم أنماط الانتباه لتخفيف التحديات. مستوحاة من طبيعة التجميع المحلية لاستخراج السمات البصرية، صممنا تقنية جديدة تُعرف بـ إعادة ترتيب الرموز الواعية للأنماط (PARO)، والتي توحد أنماط الانتباه المختلفة في نمط كتلوي يتوافق مع الأجهزة. هذا التوحيد يبسط ويحسن بشكل كبير كلًا من الندرة والتكميم. قمنا بتقييم التوازن بين الأداء والكفاءة لمختلف الخيارات التصميمية وأتممنا منهجًا مخصصًا للنمط الموحد. يحقق نهجنا PAROAttention توليد الفيديو والصور بمقياس خالي من فقدان البيانات، ونتائج شبه متطابقة مع الخطوط الأساسية ذات الدقة الكاملة (FP)، بينما يعمل بكثافة أقل (~20%-30%) وعرض بت (INT8/INT4)، مما يحقق سرعة تشغيل كاملة تتراوح بين 1.9 مرة و2.7 مرة.