il y a 7 heures

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Abstract

Alors que les architectures Mixture-of-Experts (MoE) sont devenues la norme pour l’extension de la sparsité dans les grands modèles linguistiques, elles rencontrent de plus en plus des rendements décroissants ainsi que des goulets d’étranglement au niveau du système. Dans ce travail, nous explorons l’extension des embeddings comme une dimension puissante et orthogonale à l’extension de la sparsité. À travers une analyse approfondie et des expérimentations, nous identifions des régimes spécifiques où l’extension des embeddings permet d’atteindre un frontière de Pareto supérieure par rapport à l’extension des experts. Nous caractérisons systématiquement les facteurs architecturaux critiques qui régissent cette efficacité — allant de la gestion du budget de paramètres à l’interaction avec la largeur et la profondeur du modèle. En outre, en intégrant des optimisations système adaptées ainsi que le décodage spéculatif, nous parvenons à convertir efficacement cette sparsité en accélérations concrètes du décodage. Guidés par ces observations, nous introduisons LongCat-Flash-Lite, un modèle de 68,5 milliards de paramètres avec environ 3 milliards de paramètres activés, entraîné de zéro. Malgré l’attribution de plus de 30 milliards de paramètres aux embeddings, LongCat-Flash-Lite dépasse non seulement les modèles de base MoE équivalents en nombre de paramètres, mais se distingue également par une compétitivité remarquable par rapport aux modèles existants de taille comparable, notamment dans les domaines agents et codage.

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 heures

LLM

Transformer

Entraînement Du Modèle

Approche/Framework

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Abstract

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 heures

LLM

Transformer

Entraînement Du Modèle

Approche/Framework

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Abstract

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Échelle des embeddings surpasse l’échelle des experts dans les modèles de langage

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

Échelle des embeddings surpasse l’échelle des experts dans les modèles de langage

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

Échelle des embeddings surpasse l’échelle des experts dans les modèles de langage

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

Abstract

Build AI with AI

HyperAI Newsletters

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian