HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

Abstract

تم استخدام آليات التحكم (Gating) على نطاق واسع، بدءًا من النماذج المبكرة مثل LSTMs وشبكات Highway، ووصولًا إلى النماذج الحديثة مثل نماذج الفضاء الحالة (state space models)، والانتباه الخطي (linear attention)، والانتباه بالدالة الـ softmax. ومع ذلك، فإن الأدبيات الحالية نادراً ما تُجري تحليلًا مفصلًا لتأثيرات آليات التحكم المحددة. في هذا العمل، نُجري تجارب شاملة لاستكشاف تأثيرات تحسين الانتباه بالدالة الـ softmax من خلال إدخال آليات تحكم بشكل منهجي. وبشكل خاص، نُجري مقارنة شاملة بين 30 نموذجًا متنوعًا من نماذج مزيج الخبراء (Mixture-of-Experts) بحجم 15 مليار معلمة (15B MoE)، بالإضافة إلى نماذج كثيفة بحجم 1.7 مليار معلمة (1.7B dense)، تم تدريبها على مجموعة بيانات ضخمة تضم 3.5 تريليون رمز (token). وأبرز نتائجنا تشير إلى أن تعديلًا بسيطًا — وهو تطبيق جهاز تحكم بسيجmoid مخصص لكل رأس (head-specific sigmoid gate) بعد وحدة الانتباه بمنتج النقطة المُقيّد (Scaled Dot-Product Attention - SDPA) — يُحسّن الأداء بشكل متسق. كما أن هذا التعديل يُعزز استقرار التدريب، ويسمح باستخدام معدلات تعلم أكبر، ويُحسّن خصائص التوسع (scaling properties). ومن خلال مقارنة مواقع مختلفة لآليات التحكم، بالإضافة إلى تنوعات حسابية مختلفة، نُرجع هذه الفعالية إلى عاملين رئيسيين: (1) إدخال عدم خطية على الخريطة ذات الرتبة المنخفضة في عملية الانتباه بالدالة الـ softmax، و(2) تطبيق عناصر تحكم نادرة تعتمد على الاستعلام (query-dependent sparse gating scores) لتعديل إخراج وحدة SDPA.ومن المهم الإشارة إلى أننا وجدنا أن هذه الآلية النادرة للتحكم تُقلل من ظاهرة التفعيل الضخم (massive activation) وتحسّن من أداء الاستخلاص للسياقات الطويلة (long-context extrapolation). كما نُطلق مع هذا العمل الكود المرتبط (https://github.com/qiuzh20/gated_attention) والنموذج المُدرّب (https://huggingface.co/QwQZh/gated_attention) لدعم الأبحاث المستقبلية. بالإضافة إلى ذلك، تم استخدام أفضل آلية لتحكم إخراج SDPA في نماذج Qwen3-Next (https://huggingface.co/collections/Qwen/qwen3-next).


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة" | Papers | HyperAI