CODESIM: Multi-Agent-Codegenerierung und Problemlösung durch simulationsgesteuerte Planung und Debugging

Große Sprachmodelle (Large Language Models, LLMs) haben erhebliche Fortschritte in der Codegenerierung und Problemlösung erzielt. Aktuelle Ansätze setzen auf externe, werkzeugbasierte iterativ arbeitende Debugger, die Rückmeldungen von Compilern oder anderen Tools zur Laufzeit nutzen, um grobe Programme, die durch verschiedene Methoden generiert wurden, zu verfeinern. Die Wirksamkeit dieser Ansätze hängt jedoch stark von der Qualität der initialen Codegenerierung ab, was nach wie vor eine offene Herausforderung darstellt. In diesem Paper stellen wir CodeSim vor, einen neuartigen Multi-Agenten-Codegenerierungs-Framework, der die Phasen der Programmsynthese-Planung, Codierung und Debugging durch einen menschenähnlichen Wahrnehmungsansatz umfassend adressiert. Wie Menschen ihre Verständnis von Algorithmen durch visuelle Simulation überprüfen, verfügt CodeSim über eine einzigartige Methode zur Planüberprüfung und internen Debugging durch schrittweise Simulation von Eingabe/Ausgabe. Umfassende Experimente an sieben anspruchsvollen Benchmark-Aufgaben zur Wettbewerbsproblemstellung und Programmsynthese belegen die bemerkenswerten Fähigkeiten von CodeSim in der Codegenerierung. Unser Framework erreicht neue State-of-the-Art-Ergebnisse (pass@1): HumanEval 95,1 %, MBPP 90,7 %, APPS 22 % und CodeContests 29,1 %. Zudem zeigt unsere Methode ein großes Potenzial für weitere Verbesserungen, wenn sie mit externen Debuggern kaskadiert wird. Um die weitere Forschung und Entwicklung in diesem Bereich zu fördern, haben wir unseren Framework öffentlich gemacht unter diesem Link (https://kagnlp.github.io/codesim.github.io/).