Command Palette
Search for a command to run...

Résumé
Nous présentons Apriel-1.5-15B-Thinker, un modèle multimodal de raisonnement à 15 milliards de paramètres, aux poids ouverts, qui atteint des performances de pointe grâce à une conception d'entraînement soigneusement optimisée, plutôt qu'à une simple augmentation de l'échelle. Partant de Pixtral-12B, nous appliquons une méthodologie progressive en trois étapes : (1) une augmentation progressive de la profondeur du modèle, permettant d’élargir sa capacité de raisonnement sans entrainement à partir de zéro ; (2) un pré-entraînement continu par étapes, qui développe d’abord une compréhension fondamentale du texte et de l’image, puis améliore le raisonnement visuel grâce à une génération ciblée de données synthétiques, visant à renforcer la compréhension de la structure spatiale, de la composition et de la perception fine ; (3) une fine-tuning supervisée à texte unique de haute qualité sur des paires instruction-réponse soigneusement sélectionnées, incluant des traces explicites de raisonnement couvrant les domaines des mathématiques, du codage, des sciences et de l’utilisation d’outils. Notons que notre modèle obtient des résultats compétitifs sans recourir à l’apprentissage par renforcement ni à l’optimisation des préférences, ce qui permet d’isoler l’apport de notre approche de pré-entraînement continu centrée sur les données. Sur l’Indice d’Intelligence Artificielle d’Analyse, Apriel-1.5-15B-Thinker atteint un score de 52, égalant DeepSeek-R1-0528, tout en nécessitant significativement moins de ressources computationnelles. Sur dix benchmarks d’images, ses performances sont en moyenne à moins de cinq points de celles de Gemini-2.5-Flash et de Claude Sonnet-3.7 — un résultat notable pour un modèle fonctionnant sous contraintes d’implémentation sur une seule carte GPU. Nos résultats démontrent qu’une conception réfléchie du processus d’entraînement peut combler de vastes écarts de capacité sans recourir à une échelle massive, rendant ainsi le raisonnement multimodal de pointe accessible aux organisations disposant de ressources informatiques limitées. Nous mettons à disposition le point de contrôle du modèle, toutes les recettes d’entraînement ainsi que les protocoles d’évaluation sous licence MIT, afin de promouvoir la recherche open source.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.