Command Palette
Search for a command to run...
마지스틀라르
마지스틀라르
초록
우리는 Magistral을 소개합니다. 이는 Mistral의 첫 번째 추론 모델이며, 우리 자신의 확장 가능한 강화학습(RL) 파이프라인을 소개하는 것입니다. 기존 구현 및 이전 모델에서 추출한 RL 트레이스에 의존하지 않고, 오직 우리 자신의 모델과 인프라스트럭처만을 사용하여 근본적인 접근 방식을 취했습니다. 특히, 우리는 순수한 RL 훈련으로 LLMs의 한계를 탐구할 수 있는 스택을 시연하였으며, 모델의 추론 언어를 강제하는 간단한 방법을 제시하였고, 텍스트 데이터만으로 RL 훈련이 초기 체크포인트의 대부분 능력을 유지함을 보여주었습니다. 우리는 텍스트에 대한 RL 훈련이 다중모달 이해, 명령어 따르기 및 함수 호출 능력을 유지하거나 개선한다는 것을 발견하였습니다. Magistral Medium은 Mistral Medium 3 위에서 RL만으로 훈련된 모델이며, Magistral Small(Apache 2.0)는 이를 오픈 소스로 제공하며, Magistral Medium에서 얻은 콜드스타트 데이터를 추가로 포함하고 있습니다.