HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة"

الملخص

تم استخدام آليات التحكم (Gating) على نطاق واسع، بدءًا من النماذج المبكرة مثل LSTMs وشبكات Highway، ووصولًا إلى النماذج الحديثة مثل نماذج الفضاء الحالة (state space models)، والانتباه الخطي (linear attention)، والانتباه بالدالة الـ softmax. ومع ذلك، فإن الأدبيات الحالية نادراً ما تُجري تحليلًا مفصلًا لتأثيرات آليات التحكم المحددة. في هذا العمل، نُجري تجارب شاملة لاستكشاف تأثيرات تحسين الانتباه بالدالة الـ softmax من خلال إدخال آليات تحكم بشكل منهجي. وبشكل خاص، نُجري مقارنة شاملة بين 30 نموذجًا متنوعًا من نماذج مزيج الخبراء (Mixture-of-Experts) بحجم 15 مليار معلمة (15B MoE)، بالإضافة إلى نماذج كثيفة بحجم 1.7 مليار معلمة (1.7B dense)، تم تدريبها على مجموعة بيانات ضخمة تضم 3.5 تريليون رمز (token). وأبرز نتائجنا تشير إلى أن تعديلًا بسيطًا — وهو تطبيق جهاز تحكم بسيجmoid مخصص لكل رأس (head-specific sigmoid gate) بعد وحدة الانتباه بمنتج النقطة المُقيّد (Scaled Dot-Product Attention - SDPA) — يُحسّن الأداء بشكل متسق. كما أن هذا التعديل يُعزز استقرار التدريب، ويسمح باستخدام معدلات تعلم أكبر، ويُحسّن خصائص التوسع (scaling properties). ومن خلال مقارنة مواقع مختلفة لآليات التحكم، بالإضافة إلى تنوعات حسابية مختلفة، نُرجع هذه الفعالية إلى عاملين رئيسيين: (1) إدخال عدم خطية على الخريطة ذات الرتبة المنخفضة في عملية الانتباه بالدالة الـ softmax، و(2) تطبيق عناصر تحكم نادرة تعتمد على الاستعلام (query-dependent sparse gating scores) لتعديل إخراج وحدة SDPA.ومن المهم الإشارة إلى أننا وجدنا أن هذه الآلية النادرة للتحكم تُقلل من ظاهرة التفعيل الضخم (massive activation) وتحسّن من أداء الاستخلاص للسياقات الطويلة (long-context extrapolation). كما نُطلق مع هذا العمل الكود المرتبط (https://github.com/qiuzh20/gated_attention) والنموذج المُدرّب (https://huggingface.co/QwQZh/gated_attention) لدعم الأبحاث المستقبلية. بالإضافة إلى ذلك، تم استخدام أفضل آلية لتحكم إخراج SDPA في نماذج Qwen3-Next (https://huggingface.co/collections/Qwen/qwen3-next).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الانتباه المُرَقَّب لنماذج اللغة الكبيرة: غير الخطية، والشِّبَكَة، وخلوّ الانتباه من "الحفرة" | الأوراق البحثية | HyperAI