HyperAIHyperAI

Command Palette

Search for a command to run...

Mixtral des Experts

Résumé

Nous présentons Mixtral 8x7B, un modèle de langage à mélange d'experts clairsemé (Sparse Mixture of Experts, SMoE). Mixtral possède la même architecture que Mistral 7B, avec la différence que chaque couche est composée de 8 blocs de propagation avant (c'est-à-dire des experts). Pour chaque jeton, à chaque couche, un réseau de routage sélectionne deux experts pour traiter l'état actuel et combiner leurs sorties. Bien que chaque jeton ne voie que deux experts, les experts sélectionnés peuvent être différents à chaque pas de temps. Par conséquent, chaque jeton a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs lors de l'inférence. Mixtral a été formé avec une taille de contexte de 32 000 jetons et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral dépasse largement Llama 2 70B en mathématiques, génération de code et benchmarks multilingues. Nous fournissons également un modèle affiné pour suivre des instructions, Mixtral 8x7B - Instruct, qui dépasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro et Llama 2 70B - modèle conversationnel sur les benchmarks humains. Les modèles de base et instruct sont tous deux publiés sous licence Apache 2.0.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp