2달 전

Mistral 7B

Albert Q. Jiang; Alexandre Sablayrolles; Arthur Mensch; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Florian Bressand; Gianna Lengyel; Guillaume Lample; Lucile Saulnier; Lélio Renard Lavaud; Marie-Anne Lachaux; Pierre Stock; Teven Le Scao; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed
Mistral 7B
초록

우리는 우수한 성능과 효율성을 위해 설계된 70억 개 매개변수를 가진 언어 모델, Mistral 7B v0.1을 소개합니다. Mistral 7B는 모든 평가 벤치마크에서 Llama 2 13B를 능가하며, 추론, 수학 및 코드 생성 분야에서는 Llama 1 34B를 also 초월합니다. 우리의 모델은 더 빠른 추론을 위해 그룹 쿼리 주의(GQA)를 활용하고, 슬라이딩 윈도우 주의(SWA)를 통해 비용을 줄이면서 임의 길이의 시퀀스를 효과적으로 처리합니다. 또한, 인간 및 자동화된 벤치마크에서 모두 Llama 2 13B -- Chat 모델을 능가하는 지시사항에 따르도록 미세 조정된 모델인 Mistral 7B -- Instruct도 제공합니다. 우리의 모델들은 Apache 2.0 라이선스 하에 배포됩니다.

Mistral 7B | 최신 연구 논문 | HyperAI초신경