ماجستريال

نقدم ماجستريال (Magistral)، وهو أول نموذج استدلال من ميستريال (Mistral) وخط أنابيب تعليمنا التعزيزي القابل للتوسيع. بدلاً من الاعتماد على التنفيذات والمسارات التعليمية التعزيزية المستخرجة من النماذج السابقة، نتبع نهجًا يبدأ من الصفر، معتمدين فقط على نماذجنا الخاصة وبنية تحتيتنا. لاحظ أننا نظهر بنية ساعدتنا في استكشاف حدود تدريب النماذج اللغوية الكبيرة (LLMs) بالتعليم التعزيزي الخالص، ونقدم طريقة بسيطة لفرض لغة الاستدلال في النموذج، ونوضح أن التعلم التعزيزي على بيانات النصوص وحده يحافظ على معظم قدرات نقطة التحقق الأولية. لقد اكتشفنا أن التعلم التعزيزي على النصوص يحافظ أو يحسن فهم البيانات متعددة الوسائط، ومتابعة الأوامر، وإجراء المكالمات الدالة. نقدم ماجستريال ميديوم (Magistral Medium)، الذي تم تدريبه على الاستدلال فوق ميستريال ميديوم 3 باستخدام التعلم التعزيزي فقط، ونقوم بإتاحة مصدر ماجستريال صغير (Magistral Small) كمصدر حر (رخصة Apache 2.0) والذي يتضمن أيضًا بيانات البداية الباردة من ماجستريال ميديوم.