HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Compréhension du raisonnement intégré à l'outil

Heng Lin Zhongwen Xu

Compréhension du raisonnement intégré à l'outil

Résumé

Nous étudions les raisons pour lesquelles le raisonnement intégré à des outils (Tool-Integrated Reasoning, TIR) renforce les capacités des grands modèles linguistiques (Large Language Models, LLM). Bien que les LLM intégrant des outils tels qu’un interpréteur de code Python montrent un potentiel prometteur, une théorie fondée sur des principes explicatifs de l’efficacité de ce paradigme manquait jusqu’à présent. Ce travail fournit la première preuve formelle selon laquelle le TIR étend fondamentalement les capacités d’un LLM. Nous démontrons que l’utilisation d’outils permet une expansion stricte du support empirique et du domaine des solutions réalisables du modèle, dépassant ainsi le plafond de performance des modèles purement textuels en rendant accessibles des stratégies de résolution de problèmes autrement impossibles ou excessivement verbeuses. Pour guider le comportement du modèle sans compromettre la stabilité ni la performance de l’entraînement, nous introduisons également une nouvelle méthode, l’Optimisation de politique par mise en forme de l’avantage (Advantage Shaping Policy Optimization, ASPO), qui modifie directement la fonction d’avantage afin de diriger le comportement de la politique. Nous menons des expériences approfondies sur des benchmarks mathématiques exigeants, en utilisant un interpréteur Python comme outil externe. Nos résultats montrent qu’un modèle TIR surpasse de façon décisive son homologue purement textuel sur le métrique pass@k. De manière cruciale, cet avantage ne se limite pas aux problèmes intensifs en calcul, mais s’étend également à ceux nécessitant une grande capacité d’abstraction. Nous identifions par ailleurs les motifs cognitifs émergents qui illustrent la manière dont les modèles apprennent à raisonner à l’aide d’outils. Enfin, nous rapportons une amélioration du comportement d’utilisation des outils, caractérisée par une invocation précoce du code et un nombre bien plus élevé d’interactions avec ASPO. Globalement, ce travail fournit la première explication fondée sur des principes du succès du TIR, déplaçant le focus de la simple constatation que les outils fonctionnent vers une compréhension précise de pourquoi et comment ils permettent un raisonnement plus puissant.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Compréhension du raisonnement intégré à l'outil | Articles de recherche | HyperAI