HyperAIHyperAI

Command Palette

Search for a command to run...

Magistral

Zusammenfassung

Wir stellen Magistral vor, das erste Inferenzmodell von Mistral und unsere eigene skalierbare Pipeline für Verstärkungslernen (RL). Anstatt auf bestehende Implementierungen und aus früheren Modellen destillierte RL-Spuren zurückzugreifen, folgen wir einem Ansatz von Grund auf, der ausschließlich auf unseren eigenen Modellen und Infrastrukturen basiert. Bemerkenswerterweise zeigen wir eine Stack-Konfiguration, die es uns ermöglichte, die Grenzen des reinen RL-Trainings von LLMs zu erforschen, eine einfache Methode zur Erzwingung der Inferenzsprache des Modells vorzustellen und zu beweisen, dass das RL allein auf Textdaten den Großteil der Fähigkeiten des anfänglichen Checkpoints beibehält. Wir stellen fest, dass das RL allein auf Textdaten die multimodale Verarbeitungsfähigkeit, die Instruktionserkennung und die Funktionsaufrufe beibehält oder verbessert. Wir präsentieren Magistral Medium, das speziell zum Inferenztraining über Mistral Medium 3 mit reinem RL trainiert wurde, und wir veröffentlichen Magistral Small (Apache 2.0), das zusätzlich kalte Startdaten von Magistral Medium enthält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp