2 个月前
Mistral 7B
Albert Q. Jiang; Alexandre Sablayrolles; Arthur Mensch; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Florian Bressand; Gianna Lengyel; Guillaume Lample; Lucile Saulnier; Lélio Renard Lavaud; Marie-Anne Lachaux; Pierre Stock; Teven Le Scao; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed

摘要
我们介绍了Mistral 7B v0.1,这是一款具有70亿参数的语言模型,旨在实现卓越的性能和效率。Mistral 7B在所有评估基准上均优于Llama 2 13B,并且在推理、数学和代码生成方面超越了Llama 1 34B。我们的模型采用了分组查询注意力(Grouped-Query Attention, GQA)以加快推理速度,并结合滑动窗口注意力(Sliding Window Attention, SWA)有效处理任意长度的序列,同时降低了推理成本。此外,我们还提供了一款经过微调以遵循指令的模型——Mistral 7B -- Instruct,该模型在人类和自动化基准测试中均超过了Llama 2 13B -- Chat模型。我们的模型均在Apache 2.0许可证下发布。