HyperAI

ماجستريال

Mistral-AI, Abhinav Rastogi, Albert Q. Jiang, Andy Lo, Gabrielle Berrada, Guillaume Lample, Jason Rute, Joep Barmentlo, Karmesh Yadav, Kartik Khandelwal, Khyathi Raghavi Chandu, Léonard Blier, Lucile Saulnier, Matthieu Dinot, Maxime Darrin, Neha Gupta, Roman Soletskyi, Sagar Vaze, Teven Le Scao, Yihan Wang, Adam Yang, Alexander H. Liu, Alexandre Sablayrolles, Amélie Héliou, Amélie Martin, Andy Ehrenberg, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Darius Dabert, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jean-Hadrien Chabran, Jean-Malo Delignon, Joachim Studnia, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Kush Jain, Lingxiao Zhao, Louis Martin, Luyu Gao, Lélio Renard Lavaud, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Maximilian Augustin, Mickaël Seznec, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patrick von Platen, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Pavankumar Reddy Muddireddy, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Romain Sauvestre, Rémi Delacourt, Sanchit Gandhi, Sandeep Subramanian, Shashwat Dalal, Siddharth Gandhi, Soham Ghosh, Srijan Mishra, Sumukh Aithal, Szymon Antoniak, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothée Lacroix, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yunhao Tang
تاريخ النشر: 6/15/2025
ماجستريال
الملخص

نقدم ماجستريال (Magistral)، وهو أول نموذج استدلال من ميستريال (Mistral) وخط أنابيب تعليمنا التعزيزي القابل للتوسيع. بدلاً من الاعتماد على التنفيذات والمسارات التعليمية التعزيزية المستخرجة من النماذج السابقة، نتبع نهجًا يبدأ من الصفر، معتمدين فقط على نماذجنا الخاصة وبنية تحتيتنا. لاحظ أننا نظهر بنية ساعدتنا في استكشاف حدود تدريب النماذج اللغوية الكبيرة (LLMs) بالتعليم التعزيزي الخالص، ونقدم طريقة بسيطة لفرض لغة الاستدلال في النموذج، ونوضح أن التعلم التعزيزي على بيانات النصوص وحده يحافظ على معظم قدرات نقطة التحقق الأولية. لقد اكتشفنا أن التعلم التعزيزي على النصوص يحافظ أو يحسن فهم البيانات متعددة الوسائط، ومتابعة الأوامر، وإجراء المكالمات الدالة. نقدم ماجستريال ميديوم (Magistral Medium)، الذي تم تدريبه على الاستدلال فوق ميستريال ميديوم 3 باستخدام التعلم التعزيزي فقط، ونقوم بإتاحة مصدر ماجستريال صغير (Magistral Small) كمصدر حر (رخصة Apache 2.0) والذي يتضمن أيضًا بيانات البداية الباردة من ماجستريال ميديوم.