vor einem Monat

Apriel-1.5-15b-Thinker

Shruthan Radhakrishna Aman Tiwari Aanjaneya Shukla Masoud Hashemi Rishabh Maheshwary Shiva Krishna Reddy Malay Jash Mehta Pulkit Pattnaik Saloni Mittal Khalil Slimi

Abstract

Wir präsentieren Apriel-1.5-15B-Thinker, ein multimodales Reasoning-Modell mit 15 Milliarden Parametern und offenen Gewichten, das herausragende Leistung auf Vordermann-Niveau erreicht – nicht durch bloße Skalierung, sondern durch eine gezielte Trainingsarchitektur. Ausgehend von Pixtral-12B wenden wir eine progressive dreistufige Methode an: (1) Tiefen-Scaling zur Erweiterung der Reasoning-Fähigkeit ohne Neutraining von Grund auf, (2) stufenweises kontinuierliches Pre-Training, das zunächst grundlegende Text- und Visualsemantik verstärkt, anschließend die visuelle Reasoning-Fähigkeit durch gezielte Generierung synthetischer Daten verbessert – mit Fokus auf räumliche Struktur, kompositionelle Verständnisfähigkeit und feinkörnige Wahrnehmung – sowie (3) hochwertige, textbasierte überwachte Feinjustierung an ausgewählten Anweisung-Antwort-Paaren mit expliziten Reasoning-Spuren in den Bereichen Mathematik, Programmierung, Naturwissenschaften und Werkzeugnutzung. Besonders hervorzuheben ist, dass unser Modell wettbewerbsfähige Ergebnisse erzielt, ohne auf Reinforcement Learning oder Präferenz-Optimierung zurückzugreifen, wodurch der Beitrag unseres datenzentrierten kontinuierlichen Pre-Training-Ansatzes klar isoliert werden kann. Auf dem Artificial Analysis Intelligence Index erreicht Apriel-1.5-15B-Thinker eine Bewertung von 52 – vergleichbar mit DeepSeek-R1-0528 – trotz erheblich geringerer Rechenressourcen. In zehn Bildbewertungsbenchmarks liegt seine durchschnittliche Leistung innerhalb von fünf Punkten von Gemini-2.5-Flash und Claude Sonnet-3.7, was für ein Modell, das unter den Einschränkungen einer Ein-GPU-Deployment-Architektur arbeitet, eine bedeutende Leistung darstellt. Unsere Ergebnisse zeigen, dass eine sorgfältig gestaltete Mittelphase-Training-Strategie erhebliche Leistungslücken schließen kann, ohne auf massive Skalierung angewiesen zu sein, und somit die Erreichbarkeit von Spitzenleistungen im multimodalen Reasoning für Organisationen mit begrenzter Infrastruktur ermöglicht. Wir veröffentlichen das Modell-Checkpoint, alle Trainingsrezepte sowie die Evaluationsprotokolle unter der MIT-Lizenz, um die offene Forschung voranzutreiben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Apriel-1.5-15b-Thinker

Shruthan Radhakrishna Aman Tiwari Aanjaneya Shukla Masoud Hashemi Rishabh Maheshwary Shiva Krishna Reddy Malay Jash Mehta Pulkit Pattnaik Saloni Mittal Khalil Slimi14 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Shruthan Radhakrishna Aman Tiwari Aanjaneya Shukla Masoud Hashemi Rishabh Maheshwary Shiva Krishna Reddy Malay Jash Mehta Pulkit Pattnaik Saloni Mittal Khalil Slimi