Qwen3-Next تُحدث معايير الأداء والاستدامة في الذكاء الاصطناعي بدمج الانتباه الهجين ونموذج MoE ذي الكثافة المنخفضة
تم دمج نموذج Qwen3-Next رسميًا في مكتبة Transformers، مُحدثًا مساحة التطور في نماذج الذكاء الاصطناعي بفضل تحسينات معمقة في البنية المعمارية. يركز هذا التحديث على تحسين كفاءة الاستدلال (inference) دون التضحية بالأداء، عبر ثلاث مبادرات رئيسية: الانتباه الهجين (Hybrid Attention)، وتحسينات في هيكلة MoE (مُوزعة على خبراء متفرقة)، ودمج هيكل MTP (التنبؤ برسائل متعددة). فيما يتعلق بالانتباه الهجين، تم دمج مكونين رئيسيين: Gated DeltaNet (3 طبقات) وGate SoftmaxAttention (طبقة واحدة). يُعد Gated DeltaNet محور التحسين، حيث يقلل من التعقيد الزمني من O(n²) إلى O(n) عبر آلية انتباه متكرر (Recurrent Attention) تعتمد على تحديث ديناميكي للحالة التكرارية. يتم ذلك من خلال حسابات مكثفة على المصفوفات QKV مع إضافة مشروع Z، وتطبيق تمرير خطي (causal convolution) لاستيعاب السياق المحلي بكفاءة. يُستخدم مُعامل التحكم (beta) كمفتاح (gating) لضبط شدة التحديث، بينما يُستخدم التخزين (kv_mem) لتمثيل المعرفة السابقة. النتيجة: تقليل التكلفة الحسابية مع الحفاظ على القدرة على التعرف على العلاقات الطويلة المدى. النظام يعتمد على نسبة 3:1 بين طبقات Gated DeltaNet وطبقة Gate SoftmaxAttention، وهي نتيجة تجارب مكثفة تُظهر توازنًا مثاليًا بين الأداء والكفاءة. فالانتباه الخطي (مثل Gated DeltaNet) يُحسن الأداء في النصوص الطويلة، لكنه يعاني من ضعف القدرة على الاسترجاع، بينما الانتباه القياسي (Softmax) دقيق لكنه بطيء. الجمع بينهما يحقق أفضل النتائج. في قسم MoE، حقق Qwen3-Next مستوى نادر من التفرع (sparsity)، حيث يتم تفعيل 3.7% فقط من المعاملات أثناء الاستدلال. كما تم إدخال "خبير مشترك" (Shared Expert) إلى الهيكل، مما يخلق تصميمًا ثنائي المسار: أحد المسارات يوجه الرسائل إلى خبراء متفرقة (مُخصصة)، بينما يعالج الآخر كل الرسائل عبر الخبير المشترك (عام). يشبه هذا التصميم نموذج استشارة طبية، حيث يُعالج الخبير العام المهام الأساسية، بينما يُعالج الخبراء المتفرقة الحالات المعقدة. هذه الطريقة تعزز الاستقرار والأداء العام. أيضًا، تم تطبيق هيكل MTP (Multi-Token Prediction) لتسريع الاستدلال، حيث يُتنبأ برسائل متعددة في نفس الوقت، مما يقلل من عدد التكرارات المطلوبة. كما تم تحسين وحدة التطبيع (RMSNorm) عبر استخدام "Zero-Centered RMSNorm"، حيث يتم تهيئة المعاملات الابتدائية إلى الصفر، مما يُقلل من تأثير التقلبات في التدريب، ويُحسن استقرار التدرجات، خصوصًا في الطبقات العميقة. باختصار، تمثل Qwen3-Next خطوة متقدمة في تطوير نماذج اللغة الكبيرة، حيث تُركّز على التوازن بين الكفاءة والدقة. الاتجاه نحو الهياكل الهجينة (مثل Infini-Attention، Lightning Attention، وQwen3-Next) يُظهر توجهًا صناعيًا واضحًا: بناء نماذج قادرة على معالجة النصوص الطويلة بسرعة دون فقدان الجودة. هذه التطورات ليست مجرد تحسينات تقنية، بل تمثل نموذجًا جديدًا للابتكار في الذكاء الاصطناعي.
