HyperAI

Contre l'opinion dominante selon laquelle les modèles de petite taille manquent intrinsèquement de raisonnement robuste, ce rapport présente VibeThinker-1.5B, un modèle dense de 1,5 milliard de paramètres développé grâce à notre principe du spectre au signal (Spectrum-to-Signal Principle, SSP). Ce modèle remet en question l'approche courante consistant à augmenter le nombre de paramètres pour améliorer les performances, comme cela est observé dans des modèles tels que DeepSeek R1 (671 milliards de paramètres) ou Kimi k2 (plus d’un trillion de paramètres). Le cadre SSP procède en deux étapes : tout d’abord, une distillation à exploration de diversité en deux phases (SFT) permet de générer un large éventail de solutions ; ensuite, une optimisation de politique guidée par le principe d’entropie maximale (MaxEnt) est appliquée via une méthode de renforcement (RL) afin d’amplifier le signal correct. Avec un coût total d’entraînement de seulement 7 800 dollars, VibeThinker-1.5B démontre des capacités de raisonnement supérieures à celles de modèles propriétaires tels que Magistral Medium ou Claude Opus 4, tout en rivalisant avec des modèles open source comme GPT OSS-20B Medium. De manière remarquable, il dépasse le modèle 400 fois plus volumineux DeepSeek R1 sur trois benchmarks mathématiques : AIME24 (80,3 contre 79,8), AIME25 (74,4 contre 70,0) et HMMT25 (50,4 contre 41,7). Ces résultats constituent une amélioration significative par rapport à son modèle de base (6,7, 4,3 et 0,6 respectivement). Sur le benchmark LiveCodeBench V6, il obtient un score de 51,1, dépassant ainsi Magistral Medium (50,3) et son modèle de base (0,0). Ces résultats démontrent qu’il est possible d’atteindre des capacités de raisonnement comparables à celles des grands modèles avec des modèles de petite taille, réduisant de façon drastique les coûts d’entraînement et d’inférence, et ouvrant ainsi la voie à une démocratisation de la recherche en intelligence artificielle avancée.

Petit modèle, grande logique : une optimisation pilotée par la diversité révèle une capacité de raisonnement de grand modèle dans VibeThinker-1.5B

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Petit modèle, grande logique : une optimisation pilotée par la diversité révèle une capacité de raisonnement de grand modèle dans VibeThinker-1.5B

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters