Qwen3.5 تُعيد تعريف معايير الذكاء الاصطناعي بمعمارية هجينة وتركيز على التفاعل والكفاءة
في 16 فبراير 2026، أطلقت شركة علي بابا نسخة Qwen3.5–397B-A17B، نموذجًا أساسيًا جديدًا بحجم 397 مليار معلمة، يعتمد على معمارية "مزيج الخبير" (Mixture-of-Experts) مع فقط 17 مليار معلمة نشطة لكل رمز، ما يجعله أكثر كفاءة من النماذج السابقة. النسخة المُتاحة عبر واجهة برمجة التطبيقات تُسمى Qwen3.5-Plus، وتتميز بنافذة سياق تصل إلى مليون رمز، ودعمًا مدمجًا لأدوات ذكية ووظيفة استخدام تكيفي لها. أبرز الابتكارات تكمن في معمارية الانتباه الهجينة: تُستخدم طبقات "Gated DeltaNet" (مبنية على مبدأ الانتباه الخطي) في ثلاثة من كل أربع طبقات، بينما تُستخدم طبقات الانتباه الكاملة في الربع المتبقي، بنسة 3:1. هذه الطريقة تُحسّن الكفاءة في المعالجة الطويلة للنصوص، مع تقليل التراكم في الذاكرة، وتُستمد من أبحاث مبادئ "Mamba2" مع تعديلات تحسينية. كما تم تدريب النموذج باستخدام تعلم التقويم المُ-scalable على بيئة محاكاة تضم ملايين الوكلاء، ما يعزز قدرته على تنفيذ المهام المعقدة ذات الخطوات الطويلة. Qwen3.5 هو أول نموذج من سلسلة Qwen يدعم التعدد اللغوي والبصري من البداية، مع دمج مبكر بين النص والصورة دون الحاجة إلى مُعامل بصري منفصل. يدعم 201 لغة ولهجة، وهو الأوسع في هذا المجال بين النماذج المفتوحة، رغم تباين جودة الدعم بين اللغات. في المقارنات، لا يتفوق Qwen3.5 في أي فئة واحدة، لكنه يبرز بتميزه في فهم التعليمات المعقدة، حيث تجاوز كل المنافسين في IFBench (76.5) وMultiChallenge (67.6)، وحقق تقدمًا ملحوظًا في المهام البصرية: 85.0 في MMMU، 88.6 في MathVision، و90.8 في OmniDocBench، مع نتائج قوية في المهام العاملة على الأجهزة (62.2 و66.8). في تقييمات البرمجة، تصدر 76.4 في SWE-bench Verified، و68.3 في SecCodeBench، متساويًا مع GPT-5.2 وClaude. ملاحظة مهمة: في اختبار BrowseComp، أظهر النموذج تفاوتًا كبيرًا حسب الاستراتيجية المستخدمة (69.0 مقابل 78.6)، ما يشير إلى أن نتائج التقييمات العاملة تعتمد كثيرًا على البنية الداعمة، وليس فقط على قوة النموذج. السياق الأوسع يشير إلى تحول في معايير التقييم: لم تعد المحادثات البسيطة هي المحور، بل أصبحت المهام العاملة (agentic tasks) هي المعيار، مع تقييمات مثل TAU2-Bench وMCPMark وSWE-bench. هذا يعكس توجهًا شديدًا نحو النماذج القادرة على التخطيط والتنفيذ المتعدد الخطوات. في الميدان التقني، لم تعد المسألة "مزيج الخبير أم كثيف؟"، بل أصبحت "كيف نعالج الانتباه؟". بينما تستخدم كيمي وQwen3.5 نسخة هجينة من الانتباه الخطي والكامل، تذهب مينيمكس إلى الانتباه الخطي الكامل بخوارزمية خاصة، بينما تستخدم GLM-5 تباعدًا ذكيًا (DSA) مع ميزة MLA من DeepSeek. يُتوقع أن تُطلق علي بابا نماذج أصغر من Qwen3.5 في المستقبل، وقد تكون هذه المعمارية الهجينة مُطبقة عليها. في النهاية، يُظهر Qwen3.5 نموذجًا متوازنًا، قويًا في التفاعل مع التعليمات والمهام متعددة الوسائط، ويُعد خطوة مهمة نحو نماذج ذكية قادرة على العمل في بيئات حقيقية معقدة.
