Command Palette
Search for a command to run...
Échelle des embeddings surpasse l’échelle des experts dans les modèles de langage
Échelle des embeddings surpasse l’échelle des experts dans les modèles de langage
Abstract
Alors que les architectures Mixture-of-Experts (MoE) sont devenues la norme pour l’extension de la sparsité dans les grands modèles linguistiques, elles rencontrent de plus en plus des rendements décroissants ainsi que des goulets d’étranglement au niveau du système. Dans ce travail, nous explorons l’extension des embeddings comme une dimension puissante et orthogonale à l’extension de la sparsité. À travers une analyse approfondie et des expérimentations, nous identifions des régimes spécifiques où l’extension des embeddings permet d’atteindre un frontière de Pareto supérieure par rapport à l’extension des experts. Nous caractérisons systématiquement les facteurs architecturaux critiques qui régissent cette efficacité — allant de la gestion du budget de paramètres à l’interaction avec la largeur et la profondeur du modèle. En outre, en intégrant des optimisations système adaptées ainsi que le décodage spéculatif, nous parvenons à convertir efficacement cette sparsité en accélérations concrètes du décodage. Guidés par ces observations, nous introduisons LongCat-Flash-Lite, un modèle de 68,5 milliards de paramètres avec environ 3 milliards de paramètres activés, entraîné de zéro. Malgré l’attribution de plus de 30 milliards de paramètres aux embeddings, LongCat-Flash-Lite dépasse non seulement les modèles de base MoE équivalents en nombre de paramètres, mais se distingue également par une compétitivité remarquable par rapport aux modèles existants de taille comparable, notamment dans les domaines agents et codage.