Échelle simple lors des tests

L'ajustement à l'échelle au moment du test est une nouvelle approche prometteuse en modélisation linguistique qui utilise des ressources de calcul supplémentaires au moment du test pour améliorer les performances. Récemment, le modèle o1 d'OpenAI a démontré cette capacité mais n'a pas partagé publiquement sa méthodologie, ce qui a conduit à de nombreux efforts de reproduction. Nous cherchons la méthode la plus simple pour atteindre l'ajustement à l'échelle au moment du test et des performances de raisonnement solides. Premièrement, nous avons constitué un petit ensemble de données s1K composé de 1 000 questions associées à des traces de raisonnement, en nous appuyant sur trois critères que nous avons validés par des études d'ablation : difficulté, diversité et qualité. Deuxièmement, nous avons développé la technique de forçage budgétaire pour contrôler les ressources de calcul au moment du test en interrompant violemment le processus de réflexion du modèle ou en le prolongeant en ajoutant plusieurs fois "Attendez" à la génération du modèle lorsqu'il tente de se terminer. Cela peut inciter le modèle à revoir sa réponse, souvent corrigeant des étapes de raisonnement incorrectes. Après un ajustement supervisé du modèle linguistique Qwen2.5-32B-Instruct sur s1K et son équipement avec le forçage budgétaire, notre modèle s1 dépasse o1-preview sur les questions mathématiques compétitives jusqu'à 27 % (MATH et AIME24). De plus, l'ajustement à l'échelle de s1 avec le forçage budgétaire permet d'extrapoler ses performances au-delà de celles obtenues sans intervention au moment du test : passant de 50 % à 57 % sur AIME24. Notre modèle, nos données et notre code sont open source et disponibles sur https://github.com/simplescaling/s1.