vor 2 Monaten

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

Details der Forschungsarbeit anzeigen Code anzeigen

Keke Lian Bin Wang Lei Zhang Libo Chen Junjie Wang Ziming Zhao Yujiu Yang Haotong Duan Haoran Zhao Shuang Liao

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

Abstract

Die zunehmende Verbreitung großer Sprachmodelle (LLMs) im Bereich der Softwareentwicklung erfordert eine strengere Sicherheitsbewertung des von diesen Modellen generierten Codes. Bestehende Benchmarks sind jedoch unzureichend, da sie sich auf isolierte Code-Abschnitte konzentrieren, instabile Bewertungsmethoden verwenden, die nicht reproduzierbar sind, und zudem die Beziehung zwischen der Qualität des Eingabekontexts und der Sicherheit der Ausgabe nicht berücksichtigen. Um diese Lücken zu schließen, stellen wir A.S.E (AI Code Generation Security Evaluation) vor – einen Benchmark für sicherheitsorientierte Codegenerierung auf Repository-Ebene. A.S.E generiert Aufgaben aus realen Repositories mit dokumentierten CVEs und bewahrt den vollständigen Repository-Kontext, einschließlich Build-Systeme und interdateibhängige Beziehungen. Der reproduzierbare, containerbasierte Evaluierungsrahmen nutzt regelbasierte Bewertungen nach Expertenstandards, um stabile, nachvollziehbare Beurteilungen hinsichtlich Sicherheit, Baualität und Generierungsstabilität zu ermöglichen. Unsere Evaluation führender LLMs anhand von A.S.E ergab drei zentrale Erkenntnisse: (1) Claude-3.7-Sonnet erzielt die bestmögliche Gesamtleistung. (2) Der Sicherheitsunterschied zwischen proprietären und Open-Source-Modellen ist gering; Qwen3-235B-A22B-Instruct erreicht die höchste Sicherheitsbewertung. (3) Kompakte, „schnell denkende“ Dekodierstrategien überzeugen bei der Generierung von Sicherheitspatches konsistent besser als komplexe, „langsam denkende“ Reasoning-Strategien.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

Keke Lian Bin Wang Lei Zhang Libo Chen Junjie Wang Ziming Zhao Yujiu Yang Haotong Duan Haoran Zhao Shuang Liao11 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Keke Lian Bin Wang Lei Zhang Libo Chen Junjie Wang Ziming Zhao Yujiu Yang Haotong Duan Haoran Zhao Shuang Liao