Mistral 7B

Wir stellen Mistral 7B v0.1 vor, ein Sprachmodell mit 7 Milliarden Parametern, das für eine überlegene Leistung und Effizienz entwickelt wurde. Mistral 7B übertreffen die Llama 2 13B in allen evaluierten Benchmarks und die Llama 1 34B in den Bereichen Schließen, Mathematik und Codegenerierung. Unser Modell nutzt gruppierte Abfrageaufmerksamkeit (Grouped-Query Attention, GQA), um die Inferenz zu beschleunigen, kombiniert mit rutschendem Fensteraufmerksamkeit (Sliding Window Attention, SWA), um Sequenzen beliebiger Länge effektiv zu verarbeiten und dabei die Inferenzkosten zu reduzieren. Wir bieten außerdem ein auf Anweisungen ausgerichtetes feinjustiertes Modell an, Mistral 7B -- Instruct, das sowohl in menschlichen als auch in automatisierten Benchmarks das Llama 2 13B -- Chat-Modell übertrifft. Unsere Modelle werden unter der Apache 2.0 Lizenz veröffentlicht.