Jede Aktivierung gesteigert: Skalierung des allgemeinen Reasoners auf 1 Billion offene Sprachgrundlage

Abstract
Wir stellen Ling 2.0 vor, eine Reihe von sprachbasierten Grundmodellen, die auf dem Prinzip beruhen, dass jede Aktivierung die Reasoning-Fähigkeit steigert. Ling 2.0 ist so konzipiert, dass sie sich unter einer einheitlichen Mixture-of-Experts-(MoE)-Paradigma von einigen zehn Milliarden bis hin zu einer Billion Parameter skalieren lässt und dabei hohe Sparsamkeit, konsistente Leistung über verschiedene Skalen und Effizienz unter Anwendung empirischer Skalierungsgesetze betont. Die Reihe umfasst drei nicht-überlegende (instruction-basierte) Modelle – Ling-mini-2.0, Ling-flash-2.0 und Ling-1T – mit insgesamt zwischen 16 Milliarden und einer Billion Parametern, die eine bis zu siebenfach höhere aktive Berechnungs-Effizienz im Vergleich zu dichten Gegenstücken erreichen. Ling 2.0 integriert koordinierte Innovationen in Modellarchitektur, Vortraining, Nachtraining und Infrastruktur: ein hochsparsames MoE-Modell mit MTP (Multi-Task Prompting) zur effizienten Reasoning-Unterstützung, reasoning-orientierte Trainingsdaten sowie CoT-Aktivierung während des mittleren Trainings, verstärkungsbasiertes Feintuning (DFT, Evo-CoT) sowie vollskaliges FP8-Training mit feinabgestimmten heterogenen Pipelines. Auf der Trillionen-Skala etabliert Ling-1T eine neue Pareto-Grenze zwischen Reasoning-Genauigkeit und rechnerischer Effizienz und zeigt, dass sparsame Aktivierung, wenn sie gezielt an Reasoning-Ziele angepasst ist, skalierbare und effiziente Intelligenz ermöglicht. Insgesamt bietet Ling 2.0 eine kohärente, offene und effiziente Grundlage für die Weiterentwicklung zukünftiger Reasoning- und Denkmodelle, darunter auch die Ring-Serie, die auf derselben Basis aufbaut.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.