Benchmark testet KI-Modelle auf Schwachstellenerkennung
Unabhängige Evaluierungen zur automatisierten Erkennung von Software-Sicherheitslücken durch große Sprachmodelle haben Anfang Juni 2026 neue Erkenntnisse geliefert. Ein auf einem selbst entwickelten Benchmark-Suite basierender Test verglich über einen Zeitraum von vier Wochen die Fähigkeiten verschiedener KI-Modelle bei der Identifizierung komplexer, mehrzeiliger Fehler. Der Testkorpus umfasst neun schwer auffindbare Vulnerabilitäten, die ursprünglich von Anthricks Mythos entdeckt wurden. Die Modelle wurden isoliert in Container-Umgebungen ohne Zugriff auf Versionsverläufe, jedoch mit vollem Netzwerk- und Repositories-Zugang, analysiert. Die Ergebnisse zeigen, dass Anthricks spezialisiertes Mythos-Modell mit vier erfolgreich identifizierten Lücken die Spitze bildet. Allerdings fallen die Unterschiede zu fortschrittlichen öffentlichen Modellen weniger dramatisch aus als oft angenommen. Die chinesischen Modelle Qwen 3.6 sowie DeepSeek und MiMo demonstrierten herausragende Leistungen bei erheblich geringeren Kosten und wiesen dabei deutlich weniger Falschalarme auf als einige kommerzielle Konkurrenzprodukte. Auch das MoE-Modell Gemma 4 detektierte vier von neun Lücken mit hundertprozentiger Präzision, zeigte jedoch tendenziell höhere Raten bei Rechen-Timeouts. Im Gegensatz dazu scheiterten Modelle von Mistral und Laguna trotz korrekter Aufgabenbearbeitung an der eigentlichen Detektion, was vermutlich auf strikte Sicherheitsfilter zurückzuführen ist. Google-Typische Agenten-Systeme lehnten die Analyse von Code auf explizite Sicherheitslücken hin regelmäßig ab. Methodisch beschränkt sich der Test auf eine naive Prompt-Struktur und einen begrenzten Korpus. Dies ermöglicht zwar realistische Vergleichswerte, schließt jedoch aus, dass fortschrittliche Tooling-Integrationen oder spezifisches Fine-Tuning die Lücke weiter verringern könnten. Die Tatsache, dass state-of-the-art Modelle wie Opus bei gezielter Analyse alle Lücken verstehen, spricht dafür, dass die zugrundeliegenden Architekturen prinzipiell in der Lage sind, solche Schwachstellen zu identifizieren. Für die Praxis bedeutet dies, dass spezialisierte KI-Tools wie Mythos zwar derzeit einen Vorsprung genießen, jedoch keine uneinholbare Monopolstellung besitzen. Kosteneffiziente Open-Weight-Modelle werden zu einer ernsthaften Alternative für automatisierte Security-Audits. Unternehmen, die ihre Infrastruktur prüfen, sollten zukünftig stärker auf modulare Pipelines setzen, die dedizierte Sicherheits-Tools mit kostengünstigen, leistungsstarken Sprachmodellen kombinieren. Die aktuellen Daten deuten darauf hin, dass die Grenzen zwischen spezialisierten und allgemeinen KI-Modellen in der Cybersicherheit weiter verschwimmen werden.
