الملخص

نقدم ماجستريال (Magistral)، وهو أول نموذج استدلال من ميستريال (Mistral) وخط أنابيب تعليمنا التعزيزي القابل للتوسيع. بدلاً من الاعتماد على التنفيذات والمسارات التعليمية التعزيزية المستخرجة من النماذج السابقة، نتبع نهجًا يبدأ من الصفر، معتمدين فقط على نماذجنا الخاصة وبنية تحتيتنا. لاحظ أننا نظهر بنية ساعدتنا في استكشاف حدود تدريب النماذج اللغوية الكبيرة (LLMs) بالتعليم التعزيزي الخالص، ونقدم طريقة بسيطة لفرض لغة الاستدلال في النموذج، ونوضح أن التعلم التعزيزي على بيانات النصوص وحده يحافظ على معظم قدرات نقطة التحقق الأولية. لقد اكتشفنا أن التعلم التعزيزي على النصوص يحافظ أو يحسن فهم البيانات متعددة الوسائط، ومتابعة الأوامر، وإجراء المكالمات الدالة. نقدم ماجستريال ميديوم (Magistral Medium)، الذي تم تدريبه على الاستدلال فوق ميستريال ميديوم 3 باستخدام التعلم التعزيزي فقط، ونقوم بإتاحة مصدر ماجستريال صغير (Magistral Small) كمصدر حر (رخصة Apache 2.0) والذي يتضمن أيضًا بيانات البداية الباردة من ماجستريال ميديوم.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار