Command Palette
Search for a command to run...
تُفوق مُقاييس التضمين في التوسيع مُقاييس الخبراء في نماذج اللغة
تُفوق مُقاييس التضمين في التوسيع مُقاييس الخبراء في نماذج اللغة
Abstract
بينما أصبحت هياكل خلايا المختلطات الخبيرية (Mixture-of-Experts) المعيار القياسي لتوسيع الندرة في النماذج اللغوية الكبيرة، تواجه هذه الهياكل تراجعاً متزايداً في العائدات، إضافة إلى عقبات على مستوى النظام. في هذه الدراسة، نستكشف توسيع التضمين (embedding scaling) كبعد قوي ومتوازٍ لتوسيع الندرة. من خلال تحليل شامل وتجارب معمقة، نحدد المجالات المحددة التي تحقق فيها التوسيع التضميني حدوداً باريتو متفوقة مقارنةً بتوسيع الخبراء. ونُصَفِّر بشكل منهجي العوامل المعمارية الحرجة التي تُحدد فعالية هذا النهج، بدءاً من تخصيص الميزانية المُخصصة للبارامترات، ووصولاً إلى التفاعل مع عرض النموذج وعمقه. علاوةً على ذلك، وباستخدام تحسينات نظامية مُصممة خصيصاً وتقنيات الاستنتاج التخميني (speculative decoding)، نحول بنجاح هذه الندرة إلى تسارعات ملموسة في عملية الاستدلال. وبناءً على هذه الرؤى، نقدم نموذجاً جديداً يُدعى LongCat-Flash-Lite، يحتوي على 68.5 مليار بارامتر، مع نشاط حوالي 3 مليارات بارامتر، تم تدريبه من الصفر. ورغم تخصيص أكثر من 30 مليار بارامتر للتوسيع التضميني، فإن LongCat-Flash-Lite لا يتفوق فقط على النماذج الأساسية ذات التوازي في عدد البارامترات التي تعتمد على هيكل MoE، بل يُظهر تنافسية استثنائية مقارنةً بالنماذج الحالية ذات الحجم المماثل، وبخاصة في المجالات المتعلقة بالكود والأنشطة الوكيلية (agentic).