Command Palette
Search for a command to run...
SeerAttention-R: تكيف الانتباه النادر للمنطق الطويل
SeerAttention-R: تكيف الانتباه النادر للمنطق الطويل
الملخص
نقدم SeerAttention-R، إطارًا نادر الانتباه مصمم خصيصًا لفك تشفير طويل في نماذج الاستدلال. يتم تمديده من SeerAttention، حيث يحتفظ SeerAttention-R بتصميم تعلم الندرة الانتباهية من خلال آلية التحكم الذاتي المُتقطِّر، مع إزالة تجميع الاستعلامات لتوافق مع فك التشفير التلقائي المتتابع. باستخدام آليات التحكم الخفيفة الوزن، يتميز SeerAttention-R بالمرونة ويمكن دمجه بسهولة في النماذج المدربة مسبقًا دون تعديل المعلمات الأصلية. نثبت أن SeerAttention-R، الذي تم تدريبه على 0.4 مليار رمز فقط، يحافظ على دقة استدلال شبه خالية من فقدان البيانات بميزانية قدرها 4000 رمز في معيار AIME تحت أحجام كتل انتباهية كبيرة (64/128). باستخدام TileLang، طورنا نواة فك تشفير عالية التحسين تحقق سرعات تقريبية النظرية تصل إلى 9 أضعاف مقارنة بـ FlashAttention-3 على وحدة المعالجة الرسومية H100 بنسبة ندرة 90%. يمكن الحصول على الكود من الرابط التالي: https://github.com/microsoft/SeerAttention.