HyperAIHyperAI

Command Palette

Search for a command to run...

Échelle des embeddings surpasse l’échelle des experts dans les modèles de langage

Abstract

Alors que les architectures Mixture-of-Experts (MoE) sont devenues la norme pour l’extension de la sparsité dans les grands modèles linguistiques, elles rencontrent de plus en plus des rendements décroissants ainsi que des goulets d’étranglement au niveau du système. Dans ce travail, nous explorons l’extension des embeddings comme une dimension puissante et orthogonale à l’extension de la sparsité. À travers une analyse approfondie et des expérimentations, nous identifions des régimes spécifiques où l’extension des embeddings permet d’atteindre un frontière de Pareto supérieure par rapport à l’extension des experts. Nous caractérisons systématiquement les facteurs architecturaux critiques qui régissent cette efficacité — allant de la gestion du budget de paramètres à l’interaction avec la largeur et la profondeur du modèle. En outre, en intégrant des optimisations système adaptées ainsi que le décodage spéculatif, nous parvenons à convertir efficacement cette sparsité en accélérations concrètes du décodage. Guidés par ces observations, nous introduisons LongCat-Flash-Lite, un modèle de 68,5 milliards de paramètres avec environ 3 milliards de paramètres activés, entraîné de zéro. Malgré l’attribution de plus de 30 milliards de paramètres aux embeddings, LongCat-Flash-Lite dépasse non seulement les modèles de base MoE équivalents en nombre de paramètres, mais se distingue également par une compétitivité remarquable par rapport aux modèles existants de taille comparable, notamment dans les domaines agents et codage.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp