Mélange D'experts (MoE)
Le mélange d'experts (MoE) est une technique d'apprentissage automatique dans laquelle plusieurs réseaux d'experts (apprenants) sont utilisés pour partitionner l'espace du problème en régions homogènes.
L’un des principaux avantages des modèles de mélange d’experts (MoE) est qu’ils peuvent être pré-entraînés efficacement avec beaucoup moins de ressources informatiques que les modèles denses. Cela signifie que la taille d’un modèle ou d’un ensemble de données peut être considérablement augmentée avec le même budget de calcul. En particulier pendant la phase de pré-formation, les modèles composés d'experts sont souvent capables d'atteindre le même niveau de qualité plus rapidement que les modèles denses.
Dans le contexte du modèle Transformer, le MoE se compose de deux parties principales :
- Couche MoE clairsemée:Remplace la couche traditionnelle de réseau à propagation directe dense (FFN). La couche MoE contient plusieurs « experts » (par exemple 8), chacun d'entre eux étant un réseau neuronal indépendant. Ces experts sont généralement des FFN, mais ils peuvent également être des réseaux plus complexes ou même des MoE eux-mêmes, formant une hiérarchie de MoE.
- Un réseau fermé ou un routeur: Utilisé pour décider quels jetons sont attribués à quel expert. Par exemple, dans la figure ci-dessous, le jeton « Plus » est attribué au deuxième expert, tandis que le jeton « Paramètres » est attribué au premier réseau. Il convient de noter qu’un jeton peut être attribué à plusieurs experts. La manière d’allouer efficacement des jetons aux experts appropriés est l’une des questions clés à prendre en compte lors de l’utilisation de la technologie MoE. Ce routeur se compose d'un ensemble de paramètres pouvant être appris et pré-entraînés avec le reste du modèle.

Source de l'image : Papier sur les transformateurs de commutation Exemple de couche MoE
L'idée de conception du MoE (modèle d'experts mixtes) est la suivante : dans le modèle Transformer, chaque couche FFN (réseau à réaction directe) est remplacée par une couche MoE, qui se compose d'un réseau de portes et de plusieurs « experts ».
Défis du mélange d'experts (MoE)
Bien que les modèles de mélange d'experts (MoE) offrent plusieurs avantages significatifs, tels qu'un pré-entraînement plus efficace et une inférence plus rapide par rapport aux modèles denses, ils présentent également certains défis :
- Défis de formation:Bien que les MoE puissent réaliser une préformation informatique plus efficace, ils sont souvent confrontés au problème d'une capacité de généralisation insuffisante dans la phase de réglage fin et sont sujets à un surajustement à long terme.
- Défi de raisonnement:Bien que les modèles MoE puissent avoir un grand nombre de paramètres, seule une partie d'entre eux est utilisée lors de l'inférence, ce qui rend leur inférence plus rapide que les modèles denses avec le même nombre de paramètres. Cependant, ce modèle nécessite que tous les paramètres soient chargés en mémoire, donc les besoins en mémoire sont très élevés. En prenant un MoE comme Mixtral 8x7B comme exemple, une VRAM suffisante est nécessaire pour accueillir un modèle dense avec 47B de paramètres. La raison pour laquelle il s'agit de 47B au lieu de 8 x 7B = 56B est que dans le modèle MoE, seule la couche FFN est considérée comme un expert indépendant, tandis que les autres paramètres du modèle sont partagés. De plus, en supposant que seuls deux experts sont utilisés par jeton, la vitesse d'inférence (en FLOP) est similaire à l'utilisation d'un modèle 12B (au lieu d'un modèle 14B) car bien qu'il effectue des multiplications de matrices 2x7B, certaines couches sont partagées.