تجاوز الانتباه المتجانس: نماذج اللغة الكبيرة ذات الكفاءة العالية في الذاكرة من خلال تخزين Fourier التقريبي للقيم والمفاتيح (KV)

تواجه نماذج اللغات الكبيرة تحديات في متطلبات الذاكرة الناجمة عن زيادة حجم ذاكرة المفتاح-القيمة (KV) مع زيادة طول السياق. تتجانس الأساليب الضاغطة الحالية أبعاد الرؤوس أو تعتمد على تقليم الرموز بقيادة الانتباه، مما يؤدي غالبًا إلى التضحية بالدقة أو إدخال عبء حسابي إضافي. نقترح إطار فورييه انتباه (FourierAttention)، وهو إطار لا يتطلب التدريب ويستفيد من الأدوار غير المتجانسة لأبعاد رؤوس المحول: حيث تركز الأبعاد الدنيا على السياق المحلي، بينما تلتقط الأبعاد العليا الارتباطات طويلة المدى. من خلال إسقاط الأبعاد غير الحساسة للسياق الطويل على قواعد فورييه المتعامدة، يقرب فورييه انتباه تطورها الزمني بأستخدام معاملات طيفية ذات طول ثابت. أظهرت التقييمات على نماذج LLaMA أن فورييه انتباه يحقق أفضل دقة للسياق الطويل في اختبارات LongBench و Needle-In-A-Haystack (NIAH). بالإضافة إلى ذلك، تم تصميم نواة Triton مخصصة، وهي FlashFourierAttention، لتحسين الذاكرة عبر عمليات القراءة والكتابة المنظمة، مما يتيح نشر كفء دون التأثير سلباً على الأداء.