Command Palette
Search for a command to run...
Xinghao Wang Pengyu Wang Dong Zhang Chenkun Tan Shaojun Zhou Zhaoxiang Liu Shiguo Lian Fangxu Liu Kai Song Xipeng Qiu

الملخص
يُعدّ توسيع طول السياق في النماذج اللغوية الكبيرة (LLMs) ميزةً كبيرة، لكنه ينطوي على تكاليف حسابية عالية. وتنبع هذه التكاليف في المقام الأول من آلية الانتباه الذاتي (self-attention)، التي تمتلك تعقيدًا من الدرجة O(N²) بالنسبة لطول التسلسل، ما يجعلها عقبة رئيسية تُعَرِّض الذاكرة والتأخير (latency) للإجهاد. وfortunately، يُعدّ مصفوفة الانتباه غالبًا نادرة (sparse)، خاصةً في التسلسلات الطويلة، مما يُوَفِّر فرصة لتحسين الأداء. وقد برز الانتباه الكتلي النادر (Block-sparse attention) كحل واعد، حيث يُقسَّم التسلسل إلى كتل، ويتم تخطي الحسابات بالنسبة لجزء من هذه الكتل. ومع ذلك، فإن فعالية هذا الأسلوب تعتمد بشكل كبير على أنماط الانتباه الكامنة، ما قد يؤدي إلى ندرة كتلية (block-level sparsity) غير مثالية. على سبيل المثال، قد تكون الرموز المفتاحية المهمة للطلبات داخل كتلة واحدة مُتَفَرِّقة عبر العديد من الكتل الأخرى، ما يُسبِّب تكرارًا حسابيًا. في هذا العمل، نُقدِّم طريقة "الانتباه الكتلي المُتَغَيِّر التبادلي" (Permuted Block-Sparse Attention - PBS-Attn)، وهي طريقة قابلة للتطبيق بسهولة (plug-and-play) تُستَخدَم خصائص التبديل (permutation) في الانتباه لزيادة ندرة الكتل وتحسين الكفاءة الحسابية لمرحلة تعبئة النموذج (prefilling) في النماذج اللغوية الكبيرة. أجرينا تجارب شاملة على مجموعات بيانات واقعية صعبة تتضمن سياقات طويلة، وأظهرت النتائج أن PBS-Attn تتفوّق باستمرار على الطرق الحالية للانتباه الكتلي النادر من حيث دقة النموذج، وتماشيًا وثيقًا مع النموذج الأساسي (baseline) للانتباه الكامل. وبفضل نُواة (kernel) FlashAttention المُخصَّصة التي تُطبِّق التبديل، تحقِّق PBS-Attn تسريعًا إجماليًا يصل إلى 2.75 مرة في عملية تعبئة السياق الطويل، مما يؤكد جدوى تطبيقها العملي. يمكن الاطلاع على الكود من خلال الرابط: https://github.com/xinghaow99/pbs-attn
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.