IA plus intelligente grâce à la self-doute : comment DeepConf révolutionne le raisonnement des modèles
Les modèles de langage à grande échelle (LLM) ont fait des progrès significatifs dans la résolution de problèmes complexes, comme ceux des Olympiades de mathématiques, les questions scientifiques ou les énigmes logiques à plusieurs étapes. Cependant, leur efficacité reste limitée par un coût computationnel élevé, notamment en phase de test. Pour surmonter ce défi, des chercheurs de Meta AI ont développé DeepConf (ou Deep Think with Confidence), une méthode innovante qui exploite la doute interne des modèles pour améliorer leur performance tout en réduisant les ressources nécessaires. Le principe de base repose sur la cohérence auto-suffisante : au lieu de générer une seule réponse, le modèle produit des centaines de chemins de raisonnement (jusqu’à 512), puis choisit la réponse majoritaire. Sur le benchmark AIME 2025, cette approche passe de 68 % de précision (pass@1) à 82 % (conf@512). Mais ce gain s’accompagne d’un coût énorme : près de 100 millions de tokens supplémentaires générés, souvent pour des solutions de mauvaise qualité qui biaisent le vote. Comme dans une classe où la majorité des élèves devine au hasard, le vote ne reflète pas nécessairement la meilleure réponse. Pour corriger cela, les chercheurs ont introduit une estimation de confiance interne basée sur l’entropie des tokens. L’entropie mesure l’incertitude du modèle face à chaque prédiction : une faible entropie (probabilité élevée pour un token donné) indique une grande certitude. En combinant ces mesures sur toute la chaîne de raisonnement, on peut évaluer la fiabilité de chaque solution. DeepConf utilise cette métrique pour filtrer dynamiquement les traces peu fiables, avant le vote. Deux modes sont proposés : en ligne (online) et hors ligne (offline). En mode hors ligne, toutes les traces sont générées d’abord, puis les moins confiantes sont éliminées avant le vote. En mode en ligne, le modèle évalue la confiance à chaque étape de génération. Si la confiance chute (ex. : entropie élevée dans une fenêtre de tokens), la génération de la trace est arrêtée immédiatement — une stratégie d’arrêt précoce efficace. Cela permet d’économiser jusqu’à 84,7 % des tokens générés par rapport à une approche brute. DeepConf utilise plusieurs indicateurs de confiance : la confiance moyenne, la confiance par groupe (sur une fenêtre de tokens) et la confiance de queue (sur les derniers tokens, cruciale pour la conclusion). En combinant ces métriques, le modèle peut identifier les points faibles du raisonnement et éviter les erreurs coûteuses. Sur AIME 2025, DeepConf@512 avec GPT-OSS-120B atteint 99,9 % de précision, contre 97,0 % pour le vote majoritaire classique et seulement 91,8 % pour une seule tentative. Ces résultats montrent que la prudence intellectuelle est une force, non une faiblesse. En évaluation, les experts soulignent que DeepConf représente une avancée majeure vers une intelligence computationnellement efficace. Contrairement aux approches basées sur le surdimensionnement des modèles, cette méthode optimise l’usage des ressources en s’appuyant sur une auto-évaluation fine. Des entreprises comme Meta, OpenAI et Google investissent massivement dans ce type d’optimisation, car elle permet de rendre les LLM plus durables, plus rapides et plus fiables — essentiel pour l’adoption à grande échelle. En somme, DeepConf prouve que penser plus intelligemment, plutôt que plus fort, est la clé de l’avenir des modèles d’intelligence artificielle. En apprenant à douter de leurs propres raisonnements, les LLM deviennent non seulement plus précis, mais aussi plus économes — un véritable compagnon de travail frugal et conscient.