HyperAIHyperAI

Command Palette

Search for a command to run...

vor 14 Tagen

Kleines Modell, große Logik: Diversitätsgetriebene Optimierung weckt die Schlussfolgerungsfähigkeit großer Modelle in VibeThinker-1.5B

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

Kleines Modell, große Logik: Diversitätsgetriebene Optimierung weckt die Schlussfolgerungsfähigkeit großer Modelle in VibeThinker-1.5B

Abstract

Herausfordernd die vorherrschende Auffassung, dass kleine Modelle inhärent fehlende Robustheit im Schlussfolgern aufweisen, stellt dieser Bericht VibeThinker-1.5B vor – ein dichtes Modell mit 1,5 Milliarden Parametern, das auf Basis unseres Spectrum-to-Signal-Prinzips (SSP) entwickelt wurde. Dies stellt die gängige Strategie in Frage, die Leistungsfähigkeit durch die Skalierung der Modellparameter zu steigern, wie beispielsweise bei Modellen wie DeepSeek R1 (671 Milliarden) oder Kimi k2 (über 1 Billion). Der SSP-Framework setzt zunächst eine zweistufige Diversitäts-erforschende Distillation (SFT) ein, um ein breites Spektrum an Lösungen zu generieren, gefolgt von einer MaxEnt-gesteuerten Policy-Optimierung (RL), um das korrekte Signal zu verstärken. Mit insgesamt nur 7.800 US-Dollar an Trainingskosten demonstriert VibeThinker-1.5B eine überlegene Schlussfolgerungsfähigkeit im Vergleich zu geschlossenen Quell-Modellen wie Magistral Medium und Claude Opus 4, und erreicht Leistungen auf dem Niveau offener Quell-Modelle wie GPT OSS-20B Medium. Besonders bemerkenswert ist, dass es das 400-mal größere DeepSeek R1 in drei mathematischen Benchmarks übertreffen kann: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) und HMMT25 (50,4 vs. 41,7). Dies stellt eine erhebliche Verbesserung gegenüber dem Basismodell dar (6,7, 4,3 und 0,6 jeweils). Auf dem LiveCodeBench V6 erzielt es eine Punktzahl von 51,1, was die Leistung von Magistral Medium (50,3) und des Basismodells (0,0) übertrifft. Diese Ergebnisse zeigen, dass kleine Modelle Schlussfolgerungsfähigkeiten erreichen können, die denen großer Modelle nahekommen, wodurch die Trainings- und Inferenzkosten drastisch reduziert und die demokratische Teilhabe an fortgeschrittener KI-Forschung gefördert wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kleines Modell, große Logik: Diversitätsgetriebene Optimierung weckt die Schlussfolgerungsfähigkeit großer Modelle in VibeThinker-1.5B | Forschungsarbeiten | HyperAI