Command Palette
Search for a command to run...
Mistral 7B
Mistral 7B
摘要
我们介绍了Mistral 7B v0.1,这是一款具有70亿参数的语言模型,旨在实现卓越的性能和效率。Mistral 7B在所有评估基准上均优于Llama 2 13B,并且在推理、数学和代码生成方面超越了Llama 1 34B。我们的模型采用了分组查询注意力(Grouped-Query Attention, GQA)以加快推理速度,并结合滑动窗口注意力(Sliding Window Attention, SWA)有效处理任意长度的序列,同时降低了推理成本。此外,我们还提供了一款经过微调以遵循指令的模型——Mistral 7B -- Instruct,该模型在人类和自动化基准测试中均超过了Llama 2 13B -- Chat模型。我们的模型均在Apache 2.0许可证下发布。