il y a 2 mois

Mistral 7B

Albert Q. Jiang; Alexandre Sablayrolles; Arthur Mensch; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Florian Bressand; Gianna Lengyel; Guillaume Lample; Lucile Saulnier; Lélio Renard Lavaud; Marie-Anne Lachaux; Pierre Stock; Teven Le Scao; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed

Voir les détails de l'article

Résumé

Nous présentons Mistral 7B v0.1, un modèle de langage doté de 7 milliards de paramètres et conçu pour offrir des performances et une efficacité supérieures. Mistral 7B surpasse Llama 2 13B dans tous les benchmarks évalués, ainsi que Llama 1 34B en matière de raisonnement, de mathématiques et de génération de code. Notre modèle utilise l'attention à requêtes groupées (GQA) pour accélérer l'inférence, associée à l'attention à fenêtre glissante (SWA) pour gérer efficacement des séquences de longueur arbitraire avec un coût d'inférence réduit. Nous fournissons également un modèle affiné pour suivre des instructions, Mistral 7B -- Instruct, qui dépasse le modèle Llama 2 13B -- Chat tant dans les évaluations humaines que dans les évaluations automatisées. Nos modèles sont mis à disposition sous licence Apache 2.0.