Mixtral des Experts

Nous présentons Mixtral 8x7B, un modèle de langage à mélange d'experts clairsemé (Sparse Mixture of Experts, SMoE). Mixtral possède la même architecture que Mistral 7B, avec la différence que chaque couche est composée de 8 blocs de propagation avant (c'est-à-dire des experts). Pour chaque jeton, à chaque couche, un réseau de routage sélectionne deux experts pour traiter l'état actuel et combiner leurs sorties. Bien que chaque jeton ne voie que deux experts, les experts sélectionnés peuvent être différents à chaque pas de temps. Par conséquent, chaque jeton a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs lors de l'inférence. Mixtral a été formé avec une taille de contexte de 32 000 jetons et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral dépasse largement Llama 2 70B en mathématiques, génération de code et benchmarks multilingues. Nous fournissons également un modèle affiné pour suivre des instructions, Mixtral 8x7B - Instruct, qui dépasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro et Llama 2 70B - modèle conversationnel sur les benchmarks humains. Les modèles de base et instruct sont tous deux publiés sous licence Apache 2.0.