Command Palette
Search for a command to run...
Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE
Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

Résumé
La qualité de génération des modèles de langage à grande échelle (LLM) est souvent améliorée grâce à des méthodes d’échelonnement au niveau de la séquence, appliquées au moment de l’inférence (par exemple, Chain-of-Thought). Nous introduisons une approche complémentaire, appelée hyper-parallélisme, un cadre qui améliore la qualité des prédictions au niveau du token. L’hyper-parallélisme calcule et agrège plusieurs propositions de sortie pour un même token à partir du modèle. Nous mettons en œuvre ce concept dans des modèles à Mélange d’Experts (MoE), que nous désignons sous le nom de Roster of Experts (RoE). RoE est un algorithme d’inférence sans entraînement qui transforme un unique modèle MoE en un ensemble dynamique de modèles MoE. RoE introduit une stochasticité contrôlée dans le mécanisme de routage des experts, permettant d’extraire plusieurs experts diversifiés pour chaque token, puis d’agréguer leurs sorties afin d’obtenir une prédiction finale plus précise. Pour surmonter les coûts computationnels associés, nous proposons une stratégie d’empilement efficace ainsi qu’un mécanisme spécialisé de mise en mémoire tampon (KV-caching), qui minimisent la surcharge computationnelle et mémoire. Par exemple, RoE permet à un modèle MoE de 7 milliards de paramètres de reproduire la performance d’un modèle MoE de 10,5 milliards de paramètres, tout en utilisant 30 % moins de ressources computationnelles lors de l’inférence. Ces gains sont obtenus sans aucune adaptation des paramètres du modèle par fine-tuning.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.