GLM 5.2 übertrifft Claude im Sicherheitsbenchmark
Semgrep hat in einer kürzlich durchgeführten Benchmark-Studie die Fähigkeiten moderner LLMs zur Erkennung von IDOR-Schwachstellen analysiert. Der Test umfasste einen standardisierten Datensatz realer Open-Source-Anwendungen und ein einheitliches System-Prompt. Dabei wurden ausschließlich das zugrundeliegende Modell und dessen technische Einbettung variiert. Die im Juni 2026 veröffentlichte Modellreihe GLM 5.2 des Herstellers Zhipu AI erzielte mit 39 Prozent F1-Score das beste Ergebnis unter den reinen Open-Weight-Konfigurationen und übertraf dabei Claude Code von Anthropic deutlich. Die Ergebnisse belegen, dass die Qualität der technischen Harness, also der Infrastruktur zur Kontextbereitstellung und Strukturierung, entscheidender für die Detektionsleistung ist als die reine Modellkapazität. Semgreps proprietäre Multimodal-Pipeline mit GPT-5.5 erreichte zwar mit 61 Prozent die höchste Trefferquote, benötigt hierfür jedoch eine spezialisierte Harness mit automatischer Endpunkt-Erkennung. GLM 5.2 gelang der Durchbruch ohne diese zusätzlichen Strukturen. Als Mixture-of-Experts-Modell mit rund 40 Milliarden aktiven Parametern pro Token verarbeitet es Kontexte bis zu einer Million Tokens zuverlässig und kostet bei vergleichbarer Leistung etwa ein Sechstel einer kommerziellen Frontier-Lösung. Die Veröffentlichung der offenen Parameter unter einer MIT-Lizenz ermöglicht zudem ein vollständiges, isoliertes Deployment in geschützten Unternehmensumgebungen, was für viele Security-Teams ein entscheidendes Kriterium darstellt. Mit einem Preis von circa 0,17 US-Dollar pro gefundener Schwachstelle etabliert GLM 5.2 eine neue ökonomische Basis für skalierbare Sicherheitsanalysen. Andere getestete Open-Weight-Modelle wie MiniMax M3 oder Kimi K2.7 Code schnitten deutlich schlechter ab und bestätigten, dass GLM 5.2 aktuell einen klaren Vorsprung in der logischen Verarbeitung komplexer Autorisierungsabfragen genießt. Die Semgrep-Forscher weisen darauf hin, dass die Tests auf eine spezifische Vulnerability-Klasse beschränkt sind und Ergebnisse für andere Schwachstellenklassen variieren können. Ungeachtet dieser Einschränkung markiert die Studie einen strukturellen Wendepunkt: Open-Weight-Architekturen haben die Performance-Lücke zu geschlossenen Frontier-Modellen geschlossen und bieten zugleich signifikante Kostenvorteile sowie erhöhte Datensouveränität. Für die Branche bedeutet dies, dass leistungsfähige, lokal ausführbare Modelle nun eine seriöse Alternative zu teuren, vendor-gebundenen APIs in Sicherheitspipelines darstellen.
