Mixtral der Experten

Wir stellen Mixtral 8x7B vor, ein Sprachmodell mit einer dünnen Expertenmischung (Sparse Mixture of Experts, SMoE). Mixtral hat die gleiche Architektur wie Mistral 7B, mit dem Unterschied, dass jede Schicht aus 8 Feedforward-Blöcken (d.h. Experten) besteht. Für jedes Token wird in jeder Schicht durch ein Router-Netzwerk zwei Experten ausgewählt, um den aktuellen Zustand zu verarbeiten und ihre Ausgaben zu kombinieren. Obwohl jedes Token nur zwei Experten sieht, können die ausgewählten Experten bei jedem Zeitpunkt unterschiedlich sein. Als Ergebnis hat jedes Token Zugang zu 47 Milliarden Parametern, verwendet aber während der Inferenz nur 13 Milliarden aktive Parameter. Mixtral wurde mit einem Kontext von 32.000 Tokens trainiert und übertrifft oder erreicht Llama 2 70B und GPT-3.5 in allen evaluierten Benchmarks. Insbesondere übertrifft Mixtral Llama 2 70B erheblich in Mathematik, Codegenerierung und multilingualen Benchmarks. Wir stellen außerdem ein Modell vor, das auf Anweisungen angepasst ist: Mixtral 8x7B - Instruct, das GPT-3.5 Turbo, Claude-2.1, Gemini Pro und Llama 2 70B - Chat-Modell in menschlichen Benchmarks übertrifft. Sowohl das Basismodell als auch das Instruct-Modell werden unter der Apache-Lizenz Version 2.0 veröffentlicht.