HyperAI
Back to Headlines

Un nouveau modèle d'IA combine raisonnement naturel et outils numériques pour résoudre plus efficacement les problèmes mathématiques

il y a 8 jours

Les modèles de raisonnement long-CoT ont atteint des performances de pointe dans le domaine des mathématiques en générant des séquences de raisonnement itératives avec une vérification et une amélioration continues. Cependant, les modèles open-source de long-CoT se basent uniquement sur des traces de raisonnement en langage naturel, ce qui les rend coûteux en termes de calcul et propices aux erreurs en l'absence de mécanismes de vérification. Bien que le raisonnement assisté par des outils offre une meilleure efficacité et fiabilité pour les calculs numériques à grande échelle via des cadres comme OpenHands, qui intègrent des interpréteurs de code, ces approches agentes rencontrent des difficultés face aux problèmes abstraits ou conceptuellement complexes. Les chercheurs de l’université Carnegie Mellon ont proposé un framework de distillation appelé DualDistill, qui combine les trajectoires de deux enseignants complémentaires pour créer un modèle étudiant unifié. Ce framework utilise un enseignant axé sur le raisonnement et un autre enrichi d’outils pour développer Agentic-R1, un modèle capable de sélectionner dynamiquement la stratégie la plus adaptée à chaque type de problème. Agentic-R1 exécute du code pour les tâches arithmétiques et algorithmiques, tout en utilisant le raisonnement en langage naturel pour les problèmes abstraits. DualDistill repose sur la composition de trajectoires pour distiller les connaissances provenant des deux enseignants, suivie d’une distillation autonome. Les chercheurs ont utilisé OpenHands comme enseignant de raisonnement agente et DeepSeek-R1 comme enseignant basé sur le texte. L’approche a été évaluée sur plusieurs benchmarks, tels que DeepMath-L et Combinatorics300, pour tester divers aspects du raisonnement mathématique. Elle a été comparée aux modèles de base DeepSeek-R1-Distill et Qwen-2.5-Instruct. Le modèle étudiant, Agentic-R1, a montré d’importantes améliorations de performance grâce à l’intégration des deux stratégies. Il dépasse deux modèles de taille similaire, chacun spécialisé dans une approche différente : un modèle basé sur les outils (Qwen2.5-7B-Instruct) et un autre sur le raisonnement pur (Deepseek-R1-Distill7B). Agentic-R1 dépasse les modèles basés sur les outils en utilisant intelligemment des stratégies de raisonnement lorsqu’elles sont nécessaires, tout en restant plus efficace que les modèles de raisonnement pur sur les tâches mathématiques standards. Des analyses qualitatives montrent que Agentic-R1 utilise de manière intelligente les outils, en activant l’exécution de code dans 79,2 % des problèmes de Combinatorics300, qui sont particulièrement exigeants, tandis que cette activation est réduite à 52 % pour les problèmes plus simples du dataset AMC. Agentic-R1 apprend à utiliser les outils de manière appropriée grâce à un entraînement supervisé, sans instruction explicite, en équilibrant efficacement l’efficacité computationnelle et la précision du raisonnement. Le framework reste efficace même lorsqu’il est guidé par des enseignants imparfaits. Par exemple, l’enseignant agente obtient seulement 48,4 % de précision sur Combinatorics300, mais le modèle étudiant passe de 44,7 % à 50,9 %, dépassant finalement l’enseignant. En résumé, le framework DualDistill combine efficacement les forces du raisonnement en langage naturel et du raisonnement assisté par des outils en distillant des connaissances complémentaires provenant de deux modèles enseignants spécialisés. Agentic-R1, le modèle étudiant, apprend à choisir dynamiquement la stratégie la plus adaptée à chaque problème, en équilibrant précision et efficacité. Les évaluations sur divers benchmarks de raisonnement mathématique démontrent qu’Agentic-R1 dépasse à la fois les modèles basés sur le raisonnement pur et ceux utilisant des outils, même lorsqu’il est formé par des enseignants imparfaits. Cette étude ouvre la voie à une approche prometteuse pour construire des agents d’intelligence artificielle adaptatifs, capables de combiner des stratégies de résolution de problèmes hétérogènes pour un raisonnement plus robuste et efficace.

Related Links