Mistral 7B

Nous présentons Mistral 7B v0.1, un modèle de langage doté de 7 milliards de paramètres et conçu pour offrir des performances et une efficacité supérieures. Mistral 7B surpasse Llama 2 13B dans tous les benchmarks évalués, ainsi que Llama 1 34B en matière de raisonnement, de mathématiques et de génération de code. Notre modèle utilise l'attention à requêtes groupées (GQA) pour accélérer l'inférence, associée à l'attention à fenêtre glissante (SWA) pour gérer efficacement des séquences de longueur arbitraire avec un coût d'inférence réduit. Nous fournissons également un modèle affiné pour suivre des instructions, Mistral 7B -- Instruct, qui dépasse le modèle Llama 2 13B -- Chat tant dans les évaluations humaines que dans les évaluations automatisées. Nos modèles sont mis à disposition sous licence Apache 2.0.