HyperAIHyperAI
il y a 2 jours

Pensez profondément avec assurance

Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
Pensez profondément avec assurance
Résumé

Les modèles linguistiques à grande échelle (LLM) ont démontré un fort potentiel dans les tâches de raisonnement grâce à des méthodes d’agrandissement au moment de l’évaluation, telles que la cohérence auto-référente avec vote majoritaire. Toutefois, cette approche entraîne souvent des rendements décroissants en précision ainsi qu’un surcroît important de charge computationnelle. Pour relever ces défis, nous introduisons Deep Think with Confidence (DeepConf), une méthode simple mais puissante, qui améliore à la fois l’efficacité et les performances du raisonnement au moment de l’évaluation. DeepConf exploite des signaux internes de confiance du modèle pour filtrer dynamiquement, durant ou après la génération, les trajectoires de raisonnement de faible qualité. Cette méthode ne nécessite ni entraînement supplémentaire du modèle, ni réglage de hyperparamètres, et peut être intégrée sans difficulté dans les cadres d’exploitation existants. Nous évaluons DeepConf sur une variété de tâches de raisonnement et sur les derniers modèles open-source, notamment Qwen 3 et la série GPT-OSS. Notamment, sur des benchmarks exigeants tels qu’AIME 2025, DeepConf@512 atteint une précision pouvant aller jusqu’à 99,9 % tout en réduisant le nombre de tokens générés jusqu’à 84,7 % par rapport au raisonnement parallèle complet.