Magistral

Wir stellen Magistral vor, das erste Inferenzmodell von Mistral und unsere eigene skalierbare Pipeline für Verstärkungslernen (RL). Anstatt auf bestehende Implementierungen und aus früheren Modellen destillierte RL-Spuren zurückzugreifen, folgen wir einem Ansatz von Grund auf, der ausschließlich auf unseren eigenen Modellen und Infrastrukturen basiert. Bemerkenswerterweise zeigen wir eine Stack-Konfiguration, die es uns ermöglichte, die Grenzen des reinen RL-Trainings von LLMs zu erforschen, eine einfache Methode zur Erzwingung der Inferenzsprache des Modells vorzustellen und zu beweisen, dass das RL allein auf Textdaten den Großteil der Fähigkeiten des anfänglichen Checkpoints beibehält. Wir stellen fest, dass das RL allein auf Textdaten die multimodale Verarbeitungsfähigkeit, die Instruktionserkennung und die Funktionsaufrufe beibehält oder verbessert. Wir präsentieren Magistral Medium, das speziell zum Inferenztraining über Mistral Medium 3 mit reinem RL trainiert wurde, und wir veröffentlichen Magistral Small (Apache 2.0), das zusätzlich kalte Startdaten von Magistral Medium enthält.