vor 2 Monaten

Mistral 7B

Albert Q. Jiang; Alexandre Sablayrolles; Arthur Mensch; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Florian Bressand; Gianna Lengyel; Guillaume Lample; Lucile Saulnier; Lélio Renard Lavaud; Marie-Anne Lachaux; Pierre Stock; Teven Le Scao; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed

Details der Forschungsarbeit anzeigen

Abstract

Wir stellen Mistral 7B v0.1 vor, ein Sprachmodell mit 7 Milliarden Parametern, das für eine überlegene Leistung und Effizienz entwickelt wurde. Mistral 7B übertreffen die Llama 2 13B in allen evaluierten Benchmarks und die Llama 1 34B in den Bereichen Schließen, Mathematik und Codegenerierung. Unser Modell nutzt gruppierte Abfrageaufmerksamkeit (Grouped-Query Attention, GQA), um die Inferenz zu beschleunigen, kombiniert mit rutschendem Fensteraufmerksamkeit (Sliding Window Attention, SWA), um Sequenzen beliebiger Länge effektiv zu verarbeiten und dabei die Inferenzkosten zu reduzieren. Wir bieten außerdem ein auf Anweisungen ausgerichtetes feinjustiertes Modell an, Mistral 7B -- Instruct, das sowohl in menschlichen als auch in automatisierten Benchmarks das Llama 2 13B -- Chat-Modell übertrifft. Unsere Modelle werden unter der Apache 2.0 Lizenz veröffentlicht.