Erkenntnisse aus der Benchmarking fortschrittlicher Sprachmodelle bei der Generierung von Web-App-Code

Diese Arbeit präsentiert Erkenntnisse aus der Bewertung von 16 führenden großen Sprachmodellen (Large Language Models, LLMs) anhand der WebApp1K-Benchmark-Suite, einem Testpaket, das darauf abzielt, die Fähigkeit von LLMs zur Generierung von Webanwendungscode zu bewerten. Die Ergebnisse zeigen, dass alle Modelle über ein ähnliches grundlegendes Wissen verfügen, ihre Leistung jedoch durch die Häufigkeit der auftretenden Fehler differenziert wird. Durch die Analyse von Codezeilen (Lines of Code, LOC) und Fehlerverteilungen stellen wir fest, dass die Erstellung korrekten Codes komplexer ist als die Generierung fehlerhaften Codes. Zudem zeigt sich, dass Prompt-Engineering nur begrenzt wirksam ist, um Fehler über spezifische Fälle hinaus zu reduzieren. Diese Erkenntnisse deuten darauf hin, dass zukünftige Fortschritte bei der Entwicklung von Coding-LLMs stärker auf Modellzuverlässigkeit und Minimierung von Fehlern ausgerichtet sein sollten.