منذ 5 ساعات

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Abstract

بينما أصبحت هياكل خلايا المختلطات الخبيرية (Mixture-of-Experts) المعيار القياسي لتوسيع الندرة في النماذج اللغوية الكبيرة، تواجه هذه الهياكل تراجعاً متزايداً في العائدات، إضافة إلى عقبات على مستوى النظام. في هذه الدراسة، نستكشف توسيع التضمين (embedding scaling) كبعد قوي ومتوازٍ لتوسيع الندرة. من خلال تحليل شامل وتجارب معمقة، نحدد المجالات المحددة التي تحقق فيها التوسيع التضميني حدوداً باريتو متفوقة مقارنةً بتوسيع الخبراء. ونُصَفِّر بشكل منهجي العوامل المعمارية الحرجة التي تُحدد فعالية هذا النهج، بدءاً من تخصيص الميزانية المُخصصة للبارامترات، ووصولاً إلى التفاعل مع عرض النموذج وعمقه. علاوةً على ذلك، وباستخدام تحسينات نظامية مُصممة خصيصاً وتقنيات الاستنتاج التخميني (speculative decoding)، نحول بنجاح هذه الندرة إلى تسارعات ملموسة في عملية الاستدلال. وبناءً على هذه الرؤى، نقدم نموذجاً جديداً يُدعى LongCat-Flash-Lite، يحتوي على 68.5 مليار بارامتر، مع نشاط حوالي 3 مليارات بارامتر، تم تدريبه من الصفر. ورغم تخصيص أكثر من 30 مليار بارامتر للتوسيع التضميني، فإن LongCat-Flash-Lite لا يتفوق فقط على النماذج الأساسية ذات التوازي في عدد البارامترات التي تعتمد على هيكل MoE، بل يُظهر تنافسية استثنائية مقارنةً بالنماذج الحالية ذات الحجم المماثل، وبخاصة في المجالات المتعلقة بالكود والأنشطة الوكيلية (agentic).

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

منذ 5 ساعات

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Abstract

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

منذ 5 ساعات

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Abstract

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

تُفوق مُقاييس التضمين في التوسيع مُقاييس الخبراء في نماذج اللغة

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

تُفوق مُقاييس التضمين في التوسيع مُقاييس الخبراء في نماذج اللغة

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

تُفوق مُقاييس التضمين في التوسيع مُقاييس الخبراء في نماذج اللغة

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

Abstract

Build AI with AI

HyperAI Newsletters

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian