HyperAIHyperAI

Command Palette

Search for a command to run...

Mixtral der Experten

Zusammenfassung

Wir stellen Mixtral 8x7B vor, ein Sprachmodell mit einer dünnen Expertenmischung (Sparse Mixture of Experts, SMoE). Mixtral hat die gleiche Architektur wie Mistral 7B, mit dem Unterschied, dass jede Schicht aus 8 Feedforward-Blöcken (d.h. Experten) besteht. Für jedes Token wird in jeder Schicht durch ein Router-Netzwerk zwei Experten ausgewählt, um den aktuellen Zustand zu verarbeiten und ihre Ausgaben zu kombinieren. Obwohl jedes Token nur zwei Experten sieht, können die ausgewählten Experten bei jedem Zeitpunkt unterschiedlich sein. Als Ergebnis hat jedes Token Zugang zu 47 Milliarden Parametern, verwendet aber während der Inferenz nur 13 Milliarden aktive Parameter. Mixtral wurde mit einem Kontext von 32.000 Tokens trainiert und übertrifft oder erreicht Llama 2 70B und GPT-3.5 in allen evaluierten Benchmarks. Insbesondere übertrifft Mixtral Llama 2 70B erheblich in Mathematik, Codegenerierung und multilingualen Benchmarks. Wir stellen außerdem ein Modell vor, das auf Anweisungen angepasst ist: Mixtral 8x7B - Instruct, das GPT-3.5 Turbo, Claude-2.1, Gemini Pro und Llama 2 70B - Chat-Modell in menschlichen Benchmarks übertrifft. Sowohl das Basismodell als auch das Instruct-Modell werden unter der Apache-Lizenz Version 2.0 veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mixtral der Experten | Paper | HyperAI