il y a 13 jours

Élagage des prévisibles : raisonnement efficace sur le code via la surprise du premier jeton

Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

Résumé

Récemment, les grands modèles de raisonnement (Large Reasoning Models, LRMs) ont démontré des capacités remarquables en raisonnement sur le code grâce à l’augmentation de la longueur des chaînes de raisonnement (Chain-of-Thought, CoT). Toutefois, des chaînes de raisonnement excessivement longues posent des défis importants en termes de coût d’entraînement, de latence d’inférence et de faisabilité de déploiement. Bien que diverses approches de compression de CoT aient émergé pour relever ce défi, elles sont confrontées à des compromis inhérents : les méthodes au niveau des jetons perturbent fréquemment la cohérence syntaxique et logique, tandis que les méthodes au niveau des étapes basées sur la perplexité échouent à capter de manière fiable les étapes logiquement essentielles du raisonnement. Dans cet article, nous proposons ASAP (Anchor-guided, Surprisal-based Pruning), un cadre novateur de compression de CoT de type grossier-vers-fin. ASAP commence par une suppression guidée par des repères (anchor-guided pruning) afin de préserver la structure fondamentale du raisonnement, réduisant ainsi efficacement l’espace de recherche pour les étapes ultérieures. Il permet ensuite une suppression consciente de la logique en sélectionnant les étapes de raisonnement essentielles sur la base d’un nouvel indicateur de surprisal appliqué au premier jeton. Enfin, ASAP entraîne les modèles à générer de manière autonome et à exploiter ces chaînes de raisonnement concises au moment de l’inférence, permettant ainsi un raisonnement efficace dans les tâches de génération de code. Les expérimentations montrent que ASAP atteint une précision de pointe sur plusieurs benchmarks de génération de code, tout en réduisant de façon significative les coûts d’entraînement et d’inférence. Sur le benchmark exigeant LiveCodeBench v4_v5, notre approche réduit la génération de jetons de 23,5 % et la latence d’inférence de 43,5 % par rapport au meilleur modèle de référence, tout en atteignant une précision compétitive de 36,19 % en Pass@1. Nos résultats mettent en lumière une voie prometteuse pour le développement de LRMs puissants et efficaces.