HyperAIHyperAI
il y a 13 jours

Déboguer comme un humain : un débogueur de modèle de langage à grande échelle basé sur la vérification de l'exécution en temps réel étape par étape

Li Zhong, Zilong Wang, Jingbo Shang
Déboguer comme un humain : un débogueur de modèle de langage à grande échelle basé sur la vérification de l'exécution en temps réel étape par étape
Résumé

Les grands modèles linguistiques (LLM) connaissent un progrès significatif dans la génération de code. Au-delà de la génération de code en une seule passe, les travaux récents intègrent également des tests unitaires et des vérificateurs de programmes aux LLM afin de raffiner itérativement les programmes générés. Toutefois, ces approches considèrent les programmes générés comme une entité indivisible, ce qui limite leur capacité à corriger les erreurs, en particulier lorsque les programmes impliquent des flux logiques complexes ou des opérations sur les données. À l’inverse, lorsqu’un développeur humain débogue un programme, il établit généralement des points d’arrêt et examine sélectivement les informations d’exécution en temps réel. Le flux d’exécution et les variables intermédiaires jouent un rôle fondamental dans ce processus, mais restent largement sous-exploités dans la littérature actuelle sur la génération de code. Dans cette étude, nous proposons LDB (Large Language Model Debugger), un cadre novateur de débogage qui permet aux LLM de réviser leurs programmes générés à l’aide d’informations d’exécution en temps réel. Plus précisément, LDB découpe les programmes en blocs de base et suit les valeurs des variables intermédiaires après l’exécution de chaque bloc tout au long du processus d’exécution. Cette approche permet aux LLM de se concentrer sur des unités de code plus simples au sein du flux d’exécution global, de vérifier leur correction par rapport à la description de la tâche bloc par bloc, et d’identifier efficacement toute erreur potentielle. Les expériences montrent que LDB améliore de manière constante les performances de base, avec une augmentation maximale de 9,8 % sur les benchmarks HumanEval, MBPP et TransCoder, atteignant ainsi de nouveaux états de l’art dans le débogage de code pour diverses configurations de LLM.

Déboguer comme un humain : un débogueur de modèle de langage à grande échelle basé sur la vérification de l'exécution en temps réel étape par étape | Articles de recherche récents | HyperAI