Guidé par l'instinct : mise à l'échelle efficace lors des tests grâce à une confiance intrinsèque renforcée

Les méthodes de Test-Time Scaling (TTS) visant à améliorer la capacité de raisonnement des grands modèles de langage (LLM) entraînent souvent des coûts computationnels importants, principalement en raison d'une forte dépendance aux modèles de récompense externe (PRM) ou aux méthodes d'échantillonnage comme Best-of-N (BoN). Cet article introduit Guided by Gut (GG), un cadre TTS auto-guidé efficace qui atteint des performances au niveau des PRM sans l'utilisation coûteuse de modèles vérificateurs externes. Notre méthode utilise une recherche arborescente légère guidée uniquement par les signaux intrinsèques du LLM, tels que la confiance au niveau des tokens et la nouveauté des étapes. Une innovation critique est l'amélioration de la fiabilité des estimations internes de confiance grâce à une phase de fine-tuning par apprentissage par renforcement ciblé. Les évaluations empiriques sur des benchmarks exigeants en matière de raisonnement mathématique montrent que GG permet à des modèles plus petits (par exemple, 1,5 milliard de paramètres) d'atteindre une précision équivalente ou supérieure à celle des modèles beaucoup plus volumineux (par exemple, 32-70 milliards de paramètres), tout en réduisant l'utilisation de la mémoire GPU jusqu'à 10 fois. Par rapport aux méthodes basées sur les PRM, GG atteint une précision comparable avec des vitesses d'inférence 8 fois plus rapides et une utilisation mémoire 4-5 fois moindre. De plus, GG réduit l'utilisation de la mémoire du cache KV d'environ 50 % par rapport à la stratégie BoN, facilitant ainsi un déploiement plus efficace et pratique des techniques TTS.