2달 전
전문가들의 Mixtral
Albert Q. Jiang; Alexandre Sablayrolles; Antoine Roux; Arthur Mensch; Blanche Savary; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Emma Bou Hanna; Florian Bressand; Gianna Lengyel; Guillaume Bour; Guillaume Lample; Lélio Renard Lavaud; Lucile Saulnier; Marie-Anne Lachaux; Pierre Stock; Sandeep Subramanian; Sophia Yang; Szymon Antoniak; Teven Le Scao; Théophile Gervet; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed

초록
우리는 스파스 모델 오브 전문가(Sparse Mixture of Experts, SMoE) 언어 모델인 Mixtral 8x7B를 소개합니다. Mixtral은 Mistral 7B와 동일한 아키텍처를 가지고 있으며, 각 레이어가 8개의 피드포워드 블록(즉, 전문가)으로 구성되는 점이 다릅니다. 각 토큰마다 모든 레이어에서 라우터 네트워크가 현재 상태를 처리하고 그 출력을 결합하기 위해 두 개의 전문가를 선택합니다. 비록 각 토큰이 두 개의 전문가만 볼 수 있지만, 선택된 전문가는 각 타임스텝에서 달라질 수 있습니다. 결과적으로, 각 토큰은 470억 개의 매개변수에 접근할 수 있지만, 추론 시에는 130억 개의 활성 매개변수만 사용합니다. Mixtral은 32,000 토큰 크기의 컨텍스트로 학습되었으며, 모든 평가 벤치마크에서 Llama 2 70B와 GPT-3.5를 능가하거나 맞먹는 성능을 보입니다. 특히, Mixtral은 수학, 코드 생성 및 다국어 벤치마크에서 Llama 2 70B보다 크게 우월한 성능을 보입니다. 또한 지시사항을 따르도록 미세 조정된 모델인 Mixtral 8x7B - Instruct도 제공하며, 이 모델은 인간 벤치마크에서 GPT-3.5 Turbo, Claude-2.1, Gemini Pro 및 Llama 2 70B - 챗 모델을 능가합니다. 기본 모델과 지시사항 미세 조정 모델 모두 Apache 2.0 라이선스 하에 배포됩니다.