HyperAIHyperAI
il y a 13 jours

CODESIM : Génération de code et résolution de problèmes multi-Agent par planification et débogage pilotés par simulation

Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez
CODESIM : Génération de code et résolution de problèmes multi-Agent par planification et débogage pilotés par simulation
Résumé

Les grands modèles linguistiques (LLM) ont fait des progrès significatifs en génération de code et en résolution de problèmes. Les approches actuelles reposent sur des débogueurs itératifs basés sur des outils externes, qui utilisent des retours d’exécution provenant de compilateurs ou d’autres outils pour affiner des programmes bruts générés par diverses méthodes. Toutefois, l’efficacité de ces approches dépend fortement de la qualité de la génération initiale de code, un défi encore non résolu. Dans cet article, nous introduisons CodeSim, un cadre novateur de génération de code à multiple agents, qui aborde de manière exhaustive les étapes de la synthèse de programmes — planification, codage et débogage — via une approche inspirée de la perception humaine. Tout comme un humain vérifie sa compréhension d’un algorithme à l’aide d’une simulation visuelle, CodeSim se distingue par une méthode originale de vérification du plan et de débogage interne fondée sur une simulation pas à pas des entrées et sorties. Des expériences étendues sur sept défis réputés en résolution de problèmes et en synthèse de programmes démontrent les capacités remarquables de CodeSim en génération de code. Notre cadre atteint de nouveaux résultats d’état de l’art (pass@1) : HumanEval (95,1 %), MBPP (90,7 %), APPS (22 %) et CodeContests (29,1 %). En outre, notre méthode montre un potentiel d’amélioration encore plus important lorsqu’elle est couplée à des débogueurs externes. Pour faciliter la recherche et le développement futurs dans ce domaine, nous avons rendu notre cadre open source via ce lien : https://kagnlp.github.io/codesim.github.io/.

CODESIM : Génération de code et résolution de problèmes multi-Agent par planification et débogage pilotés par simulation | Articles de recherche récents | HyperAI