마지스틀라르
Mistral-AI, Abhinav Rastogi, Albert Q. Jiang, Andy Lo, Gabrielle Berrada, Guillaume Lample, Jason Rute, Joep Barmentlo, Karmesh Yadav, Kartik Khandelwal, Khyathi Raghavi Chandu, Léonard Blier, Lucile Saulnier, Matthieu Dinot, Maxime Darrin, Neha Gupta, Roman Soletskyi, Sagar Vaze, Teven Le Scao, Yihan Wang, Adam Yang, Alexander H. Liu, Alexandre Sablayrolles, Amélie Héliou, Amélie Martin, Andy Ehrenberg, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Darius Dabert, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jean-Hadrien Chabran, Jean-Malo Delignon, Joachim Studnia, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Kush Jain, Lingxiao Zhao, Louis Martin, Luyu Gao, Lélio Renard Lavaud, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Maximilian Augustin, Mickaël Seznec, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patrick von Platen, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Pavankumar Reddy Muddireddy, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Romain Sauvestre, Rémi Delacourt, Sanchit Gandhi, Sandeep Subramanian, Shashwat Dalal, Siddharth Gandhi, Soham Ghosh, Srijan Mishra, Sumukh Aithal, Szymon Antoniak, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothée Lacroix, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yunhao Tang
발행일: 6/15/2025

초록
우리는 Magistral을 소개합니다. 이는 Mistral의 첫 번째 추론 모델이며, 우리 자신의 확장 가능한 강화학습(RL) 파이프라인을 소개하는 것입니다. 기존 구현 및 이전 모델에서 추출한 RL 트레이스에 의존하지 않고, 오직 우리 자신의 모델과 인프라스트럭처만을 사용하여 근본적인 접근 방식을 취했습니다. 특히, 우리는 순수한 RL 훈련으로 LLMs의 한계를 탐구할 수 있는 스택을 시연하였으며, 모델의 추론 언어를 강제하는 간단한 방법을 제시하였고, 텍스트 데이터만으로 RL 훈련이 초기 체크포인트의 대부분 능력을 유지함을 보여주었습니다. 우리는 텍스트에 대한 RL 훈련이 다중모달 이해, 명령어 따르기 및 함수 호출 능력을 유지하거나 개선한다는 것을 발견하였습니다. Magistral Medium은 Mistral Medium 3 위에서 RL만으로 훈련된 모델이며, Magistral Small(Apache 2.0)는 이를 오픈 소스로 제공하며, Magistral Medium에서 얻은 콜드스타트 데이터를 추가로 포함하고 있습니다.