Command Palette
Search for a command to run...
Machine Huxley-Gödel : Développement d'un agent de codage au niveau humain par une approximation de la machine auto-améliorante optimale
Wenyi Wang Piotr Piękos Li Nanbo Firas Laakom Yimeng Chen Mateusz Ostaszewski Mingchen Zhuge Jürgen Schmidhuber

Résumé
Des études récentes operationalisent l'amélioration autonome à l'aide d'agents de codage capables de modifier leur propre base de code. Ces agents construisent un arbre de modifications auto-référentes en appliquant des stratégies d'expansion favorisant les performances élevées sur des benchmarks d'ingénierie logicielle, sous l'hypothèse que de meilleures performances impliquent des modifications ultérieures plus prometteuses. Toutefois, nous identifions un décalage entre le potentiel d'amélioration autonome d'un agent (méta-productivité) et sa performance sur les benchmarks de codage, que nous désignons sous le nom de Métaproductivité-Performance Mismatch (décalage méta-productivité-performances). Inspirés du concept de clade développé par Huxley, nous proposons une métrique ( ) qui agrège les performances des descendants d'un agent afin d'estimer son potentiel d'amélioration autonome. Nous montrons que, dans notre cadre de développement d'agents de codage auto-améliorants, l'accès à la véritable valeur de ( ) est suffisant pour simuler le comportement de la machine de Gödel sous certaines hypothèses. Nous introduisons la Machine de Gödel-Huxley (HGM), qui, en estimant ( ) et en l'utilisant comme guide, explore l'arbre des modifications auto-référentes. Sur les benchmarks SWE-bench Verified et Polyglot, HGM surpasser les méthodes antérieures d'agents auto-améliorants tout en utilisant moins d'heures de calcul CPU. Enfin, HGM démontre une forte capacité de transfert vers d'autres jeux de données de codage et vers de grands modèles linguistiques. L'agent optimisé par HGM sur SWE-bench Verified avec GPT-5-mini et évalué sur SWE-bench Lite avec GPT-5 atteint une performance au niveau humain, égalant les meilleurs résultats officiellement validés des agents de codage conçus par des humains.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.