HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Apriel-1.5-15b-Thinker

Apriel-1.5-15b-Thinker

Abstract

Wir präsentieren Apriel-1.5-15B-Thinker, ein multimodales Reasoning-Modell mit 15 Milliarden Parametern und offenen Gewichten, das herausragende Leistung auf Vordermann-Niveau erreicht – nicht durch bloße Skalierung, sondern durch eine gezielte Trainingsarchitektur. Ausgehend von Pixtral-12B wenden wir eine progressive dreistufige Methode an: (1) Tiefen-Scaling zur Erweiterung der Reasoning-Fähigkeit ohne Neutraining von Grund auf, (2) stufenweises kontinuierliches Pre-Training, das zunächst grundlegende Text- und Visualsemantik verstärkt, anschließend die visuelle Reasoning-Fähigkeit durch gezielte Generierung synthetischer Daten verbessert – mit Fokus auf räumliche Struktur, kompositionelle Verständnisfähigkeit und feinkörnige Wahrnehmung – sowie (3) hochwertige, textbasierte überwachte Feinjustierung an ausgewählten Anweisung-Antwort-Paaren mit expliziten Reasoning-Spuren in den Bereichen Mathematik, Programmierung, Naturwissenschaften und Werkzeugnutzung. Besonders hervorzuheben ist, dass unser Modell wettbewerbsfähige Ergebnisse erzielt, ohne auf Reinforcement Learning oder Präferenz-Optimierung zurückzugreifen, wodurch der Beitrag unseres datenzentrierten kontinuierlichen Pre-Training-Ansatzes klar isoliert werden kann. Auf dem Artificial Analysis Intelligence Index erreicht Apriel-1.5-15B-Thinker eine Bewertung von 52 – vergleichbar mit DeepSeek-R1-0528 – trotz erheblich geringerer Rechenressourcen. In zehn Bildbewertungsbenchmarks liegt seine durchschnittliche Leistung innerhalb von fünf Punkten von Gemini-2.5-Flash und Claude Sonnet-3.7, was für ein Modell, das unter den Einschränkungen einer Ein-GPU-Deployment-Architektur arbeitet, eine bedeutende Leistung darstellt. Unsere Ergebnisse zeigen, dass eine sorgfältig gestaltete Mittelphase-Training-Strategie erhebliche Leistungslücken schließen kann, ohne auf massive Skalierung angewiesen zu sein, und somit die Erreichbarkeit von Spitzenleistungen im multimodalen Reasoning für Organisationen mit begrenzter Infrastruktur ermöglicht. Wir veröffentlichen das Modell-Checkpoint, alle Trainingsrezepte sowie die Evaluationsprotokolle unter der MIT-Lizenz, um die offene Forschung voranzutreiben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Apriel-1.5-15b-Thinker | Forschungsarbeiten | HyperAI