IBM veröffentlicht das große Sprachmodell Granite 4.1
IBM hat mit der Veröffentlichung der Granite 4.1-Serie neue Maßstäbe für offene, große Sprachmodelle gesetzt. Diese Familie dichter, decoder-basierter Modelle umfasst Größen von 3, 8 und 30 Milliarden Parametern. Ein herausragendes Merkmal ist die Leistung des 8B-Modells, das in zahlreichen Benchmarks Modelle der Vorgängergeneration mit weit mehr Parametern, einschließlich gemischter Experten-Architekturen (MoE), erreicht oder übertrifft. Alle Modelle stehen unter der Apache-2.0-Lizenz zur Verfügung und zeichnen sich durch eine sorgfältig abgestimmte Datenstrategie aus, die Qualität vor Quantität stellt. Der Trainingsprozess begann mit einem Fünf-Phasen-Vorstraining auf rund 15 Billionen Tokens. Während die ersten beiden Phasen eine breite linguistische Fundamentierung anstrebten, konzentrierten sich mittlere Phasen auf hochwertige Datenmischungen, die mathematische und programmierbezogene Inhalte priorisierten. Eine besondere Innovation ist die fünfte Phase, die das Kontextfenster der Modelle auf bis zu 512.000 Tokens erweitert, ohne dabei die Leistung bei kürzeren Eingaben zu beeinträchtigen. Durch spezielle Zusammenführungsschritte nach jedem Erweiterungsschritt bleibt die Stabilität der Modelle erhalten. Nachdem die Basismodelle trainiert wurden, erfolgte eine Supervised Fine-Tuning (SFT) auf etwa 4,1 Millionen hochkarätig kuratierte Samples. Um die Datenqualität sicherzustellen, setzte IBM ein automatisiertes „LLM-as-a-Judge"-Framework ein, das Antworten auf Struktur, Semantik und Verhalten prüft. Dabei werden Halluzinationen und falsche Prämissen automatisch erkannt und verworfen, um unerwünschte Verhaltensweisen schon früh im Prozess zu vermeiden. Die abschließende Optimierung erfolgte durch eine mehrstufige Reinforcement-Learning-Pipeline, die On-policy GRPO-Algorithmen mit spezieller Verlustfunktion nutzt. Diese Pipeline durchläuft sequenzielle Stufen: Multi-Domain-Training, generisches RLHF für Chatfähigkeit, Identitäts- und Wissenskalibrierung sowie ein spezifisches Mathematik-Training. Diese Abfolge verhindert das Vergessen früherer Fähigkeiten und maximiert die Leistung in komplexen Aufgabenbereichen wie Logik, Programmieren und mehrsprachigem Kontext. Die Benchmarks belegen die Stärke der neuen Modelle. Das 30B-Modell erreicht Werte von 80,16 Punkten auf MMLU und 94,16 Punkte auf GSM8K für Mathematik. Das 8B-Modell schlägt in Aufgaben wie Code-Generierung und Anweisungsfolge die deutlich größere Vorgängervariante Granite 4.0-H-Small. Besonders hervorzuheben ist die native Unterstützung für Tool-Calling ohne komplexe Reasoning-Pfade, was Latenzzeiten reduziert und die Kosten für den Betrieb senkt. Für die Praxis sind die Modelle auch als quantisierte Varianten in 8-Bit verfügbar, was den Speicherbedarf und den Energieverbrauch um etwa die Hälfte reduziert. Das Training erfolgte auf einer leistungsstarken Infrastruktur von CoreWeave, die über NVIDIA GB200-Cluster verfügt. IBM unterstreicht mit der Granite 4.1-Serie, dass sorgfältig kuratierte Daten und robuste Trainingsmethoden den Schlüssel zu effizienten und leistungsfähigen Modellen bilden, die für den Einsatz in unternehmenskritischen Anwendungen bereit sind.
