HyperAIHyperAI

Command Palette

Search for a command to run...

CODESIM: Multi-Agent-Codegenerierung und Problemlösung durch simulationsgesteuerte Planung und Debugging

Md. Ashraful Islam Mohammed Eunus Ali Md Rizwan Parvez

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) haben erhebliche Fortschritte in der Codegenerierung und Problemlösung erzielt. Aktuelle Ansätze setzen auf externe, werkzeugbasierte iterativ arbeitende Debugger, die Rückmeldungen von Compilern oder anderen Tools zur Laufzeit nutzen, um grobe Programme, die durch verschiedene Methoden generiert wurden, zu verfeinern. Die Wirksamkeit dieser Ansätze hängt jedoch stark von der Qualität der initialen Codegenerierung ab, was nach wie vor eine offene Herausforderung darstellt. In diesem Paper stellen wir CodeSim vor, einen neuartigen Multi-Agenten-Codegenerierungs-Framework, der die Phasen der Programmsynthese-Planung, Codierung und Debugging durch einen menschenähnlichen Wahrnehmungsansatz umfassend adressiert. Wie Menschen ihre Verständnis von Algorithmen durch visuelle Simulation überprüfen, verfügt CodeSim über eine einzigartige Methode zur Planüberprüfung und internen Debugging durch schrittweise Simulation von Eingabe/Ausgabe. Umfassende Experimente an sieben anspruchsvollen Benchmark-Aufgaben zur Wettbewerbsproblemstellung und Programmsynthese belegen die bemerkenswerten Fähigkeiten von CodeSim in der Codegenerierung. Unser Framework erreicht neue State-of-the-Art-Ergebnisse (pass@1): HumanEval 95,1 %, MBPP 90,7 %, APPS 22 % und CodeContests 29,1 %. Zudem zeigt unsere Methode ein großes Potenzial für weitere Verbesserungen, wenn sie mit externen Debuggern kaskadiert wird. Um die weitere Forschung und Entwicklung in diesem Bereich zu fördern, haben wir unseren Framework öffentlich gemacht unter diesem Link (https://kagnlp.github.io/codesim.github.io/).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp