Command Palette
Search for a command to run...
A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

Abstract
Die zunehmende Verbreitung großer Sprachmodelle (LLMs) im Bereich der Softwareentwicklung erfordert eine strengere Sicherheitsbewertung des von diesen Modellen generierten Codes. Bestehende Benchmarks sind jedoch unzureichend, da sie sich auf isolierte Code-Abschnitte konzentrieren, instabile Bewertungsmethoden verwenden, die nicht reproduzierbar sind, und zudem die Beziehung zwischen der Qualität des Eingabekontexts und der Sicherheit der Ausgabe nicht berücksichtigen. Um diese Lücken zu schließen, stellen wir A.S.E (AI Code Generation Security Evaluation) vor – einen Benchmark für sicherheitsorientierte Codegenerierung auf Repository-Ebene. A.S.E generiert Aufgaben aus realen Repositories mit dokumentierten CVEs und bewahrt den vollständigen Repository-Kontext, einschließlich Build-Systeme und interdateibhängige Beziehungen. Der reproduzierbare, containerbasierte Evaluierungsrahmen nutzt regelbasierte Bewertungen nach Expertenstandards, um stabile, nachvollziehbare Beurteilungen hinsichtlich Sicherheit, Baualität und Generierungsstabilität zu ermöglichen. Unsere Evaluation führender LLMs anhand von A.S.E ergab drei zentrale Erkenntnisse: (1) Claude-3.7-Sonnet erzielt die bestmögliche Gesamtleistung. (2) Der Sicherheitsunterschied zwischen proprietären und Open-Source-Modellen ist gering; Qwen3-235B-A22B-Instruct erreicht die höchste Sicherheitsbewertung. (3) Kompakte, „schnell denkende“ Dekodierstrategien überzeugen bei der Generierung von Sicherheitspatches konsistent besser als komplexe, „langsam denkende“ Reasoning-Strategien.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.