il y a un mois

Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

Résumé

La qualité de génération des modèles de langage à grande échelle (LLM) est souvent améliorée grâce à des méthodes d’échelonnement au niveau de la séquence, appliquées au moment de l’inférence (par exemple, Chain-of-Thought). Nous introduisons une approche complémentaire, appelée hyper-parallélisme, un cadre qui améliore la qualité des prédictions au niveau du token. L’hyper-parallélisme calcule et agrège plusieurs propositions de sortie pour un même token à partir du modèle. Nous mettons en œuvre ce concept dans des modèles à Mélange d’Experts (MoE), que nous désignons sous le nom de Roster of Experts (RoE). RoE est un algorithme d’inférence sans entraînement qui transforme un unique modèle MoE en un ensemble dynamique de modèles MoE. RoE introduit une stochasticité contrôlée dans le mécanisme de routage des experts, permettant d’extraire plusieurs experts diversifiés pour chaque token, puis d’agréguer leurs sorties afin d’obtenir une prédiction finale plus précise. Pour surmonter les coûts computationnels associés, nous proposons une stratégie d’empilement efficace ainsi qu’un mécanisme spécialisé de mise en mémoire tampon (KV-caching), qui minimisent la surcharge computationnelle et mémoire. Par exemple, RoE permet à un modèle MoE de 7 milliards de paramètres de reproduire la performance d’un modèle MoE de 10,5 milliards de paramètres, tout en utilisant 30 % moins de ressources computationnelles lors de l’inférence. Ces gains sont obtenus sans aucune adaptation des paramètres du modèle par fine-tuning.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

Résumé

Construire l'IA avec l'IA

Hyper Newsletters