HyperAIHyperAI

Command Palette

Search for a command to run...

s1 : Échelle simple au moment du test

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Résumé

L’augmentation à l’inférence (test-time scaling) est une approche prometteuse en modélisation du langage qui exploite un calcul supplémentaire au moment de l’inférence pour améliorer les performances. Récemment, le modèle o1 d’OpenAI a démontré cette capacité, sans toutefois révéler publiquement sa méthodologie, ce qui a suscité de nombreux essais de reproductibilité. Nous cherchons l’approche la plus simple pour obtenir un bon échelonnement à l’inférence et des performances de raisonnement solides. Premièrement, nous constituons un petit jeu de données s1K comprenant 1 000 questions associées à des traces de raisonnement, sélectionnées selon trois critères que nous validons par ablation : difficulté, diversité et qualité. Deuxièmement, nous introduisons une technique appelée budget forcing, qui permet de contrôler le calcul effectué à l’inférence en forçant la fin du processus de réflexion du modèle, ou en l’allongeant en ajoutant plusieurs fois le mot « Wait » à la génération du modèle lorsqu’il tente de s’arrêter. Cette méthode pousse fréquemment le modèle à revoir sa réponse, corrigeant ainsi des étapes de raisonnement erronées. Après une finetuning supervisé du modèle linguistique Qwen2.5-32B-Instruct sur s1K, et en l’équipant de la technique budget forcing, notre modèle s1 bat o1-preview sur des questions de mathématiques de concours, avec une amélioration allant jusqu’à 27 % (MATH et AIME24). En outre, l’application de l’échelonnement avec budget forcing permet d’extrapoler les performances au-delà de celles obtenues sans intervention à l’inférence : de 50 % à 57 % sur AIME24. Notre modèle, les données et le code sont disponibles en open source à l’adresse suivante : https://github.com/simplescaling/s1.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp