HyperAI

الملخص

تم استخدام آليات التحكم (Gating) على نطاق واسع، بدءًا من النماذج المبكرة مثل LSTMs وشبكات Highway، ووصولًا إلى النماذج الحديثة مثل نماذج الفضاء الحالة (state space models)، والانتباه الخطي (linear attention)، والانتباه بالدالة الـ softmax. ومع ذلك، فإن الأدبيات الحالية نادراً ما تُجري تحليلًا مفصلًا لتأثيرات آليات التحكم المحددة. في هذا العمل، نُجري تجارب شاملة لاستكشاف تأثيرات تحسين الانتباه بالدالة الـ softmax من خلال إدخال آليات تحكم بشكل منهجي. وبشكل خاص، نُجري مقارنة شاملة بين 30 نموذجًا متنوعًا من نماذج مزيج الخبراء (Mixture-of-Experts) بحجم 15 مليار معلمة (15B MoE)، بالإضافة إلى نماذج كثيفة بحجم 1.7 مليار معلمة (1.7B dense)، تم تدريبها على مجموعة بيانات ضخمة تضم 3.5 تريليون رمز (token). وأبرز نتائجنا تشير إلى أن تعديلًا بسيطًا — وهو تطبيق جهاز تحكم بسيجmoid مخصص لكل رأس (head-specific sigmoid gate) بعد وحدة الانتباه بمنتج النقطة المُقيّد (Scaled Dot-Product Attention - SDPA) — يُحسّن الأداء بشكل متسق. كما أن هذا التعديل يُعزز استقرار التدريب، ويسمح باستخدام معدلات تعلم أكبر، ويُحسّن خصائص التوسع (scaling properties). ومن خلال مقارنة مواقع مختلفة لآليات التحكم، بالإضافة إلى تنوعات حسابية مختلفة، نُرجع هذه الفعالية إلى عاملين رئيسيين: (1) إدخال عدم خطية على الخريطة ذات الرتبة المنخفضة في عملية الانتباه بالدالة الـ softmax، و(2) تطبيق عناصر تحكم نادرة تعتمد على الاستعلام (query-dependent sparse gating scores) لتعديل إخراج وحدة SDPA.ومن المهم الإشارة إلى أننا وجدنا أن هذه الآلية النادرة للتحكم تُقلل من ظاهرة التفعيل الضخم (massive activation) وتحسّن من أداء الاستخلاص للسياقات الطويلة (long-context extrapolation). كما نُطلق مع هذا العمل الكود المرتبط (https://github.com/qiuzh20/gated_attention) والنموذج المُدرّب (https://huggingface.co/QwQZh/gated_attention) لدعم الأبحاث المستقبلية. بالإضافة إلى ذلك، تم استخدام أفضل آلية لتحكم إخراج SDPA في نماذج Qwen3-Next (https://huggingface.co/collections/Qwen/qwen3-next).

الملخص

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang