HyperAI
Back to Headlines

XBOW verbessert Schwachstellen-Detektion durch Kombination verschiedener KI-Modelle.

vor 4 Tagen

Im Frühjahr dieses Jahres hatte das Unternehmen XBOW eine einfache, aber innovative Idee, die die Leistung seiner Verwundbarkeitserkennung-Agenten erheblich verbesserte. Bei festgelegten Benchmarks und einer begrenzten Anzahl von Iterationen stiegen die Erfolgsraten von 25% auf 40%, und kurz darauf sogar auf 55%. Die Herausforderung bei XBOW XBOW ist ein autonomer Penetrationstester (Pentester). Man richtet es auf eine Website, und es versucht, diese zu hacken. Falls es einen Eingangspunkt findet, meldet es diesen, damit die Schwachstelle behoben werden kann. Die Autonomie bedeutet, dass nach der initialen Einrichtung keine weitere menschliche Intervention erlaubt ist. Die Penetrationstests beinhalten eine Vielzahl von Aufgaben, darunter die Erstellung eines mentalen Modells der Website, ihres Technologiestacks, ihrer Logik und ihres Angriffsflächen. Dieses Modell wird kontinuierlich aktualisiert, und der Agent führt systematische Tests durch, um potenzielle Schwachstellen zu erkennen. Dazu gehören hunderte von spezifischen Teiltests, für die wir einen dedizierten Unteragenten entwickelt haben. Diese Tests ähneln Wettbewerben im Capture-The-Flag (CTF)-Stil, bei denen man eine Schwachstelle an einem bestimmten Ort ausnutzen muss, um eine Flagge zu finden. Die Agentenaufgabe In einem CTF-artigen Test läuft der "Solver Agent" in einer Schleife durch eine bestimmte Anzahl von Iterationen. Jede Iteration besteht darin, dass der Agent eine Aktion entscheidet, wie zum Beispiel einen Befehl in der Konsole ausführt, ein Python-Skript schreibt oder eines unserer Pentesting-Tools benutzt. Wir prüfen die Aktion, führen sie aus und zeigen dem Agenten das Ergebnis. Der Agent entscheidet dann über die nächste Aktion. Nach einer festgelegten Anzahl von Iterationen (typischerweise 80) stoppen wir den Prozess, da es effizienter ist, einen neuen Agenten ohne die vorherigen Fehlannahmen zu starten. Diese Art von Aufgabe unterscheidet sich von kontinuierlichen Fortschrittsproblemen, bei denen jeder Schritt den Zielstaat annähert. Stattdessen gleicht sie einem Prospektieren in einem großen Suchraum, wobei der Agent viele verschiedene Orte ausgräbt, eine Weile falsche Spuren verfolgt und schließlich den richtigen Weg findet. Das Language Model Seit Beginn unseres Projekts war es Teil unserer KI-Strategie, dass XBOW modellunabhängig ist. Das bedeutet, wir können das beste Language Model (LLM) für unsere Anwendung einfach einsetzen. Unser Benchmarkset ermöglicht es uns, verschiedene Modelle leicht vergleichbar zu machen, und wir testen kontinuierlich neue Modelle. Früher war OpenAI’s GPT-4 das beste Standardmodell, das wir evaluierten. Seit Juni letzten Jahres hat jedoch Anthropic’s Sonnet 3.5 die Konkurrenz deutlich in den Schatten gestellt. Sonnet 3.7 zeigte nur marginale Verbesserungen, aber Googles Gemini 2.5 Pro (Vorschau im März) brachte eine echte Steigerung. Anthropic antwortete mit Sonnet 4.0, das insgesamt besser abschnitt. Bei einzelnen Herausforderungen zeigten jedoch sowohl Gemini als auch Sonnet ihre Stärken. Alloyed Agents Unsere Idee zur Verbesserung der Agentenleistung war einfach: Statt immer das gleiche Modell zu benutzen, wechseln wir gelegentlich zwischen verschiedenen Modellen. In unserem Setup bleibt der Chat-Thread unverändert, aber die Quelle der Nachrichten wechselt unbemerkt. Beispielsweise könnte Sonnet den Vorschlag machen, curl zu verwenden, und Gemini könnte vorschlagen, sich mit Administrator-Anmeldeinformationen anzumelden. Durch den zufälligen Wechsel zwischen Modellen (wir verwenden in der Regel zwei, manchmal drei) behalten wir die Gesamtanzahl der Modellaufsätze bei, geben aber jedem Modell die Möglichkeit, seine Stärken zum Tragen zu bringen. Dies ist besonders nützlich, wenn brillante Ideen mit routinemäßigen Aktionen abwechseln. Ergebnisse Egal welche Modelle wir kombinierten, die Legierung übertraf die einzelnen Modelle. Sonnet 3.7, GPT-4.1, Gemini 2.5 Pro und Sonnet 4.0 zeigten alle bessere Ergebnisse, wenn sie als Alloy zusammenarbeiteten, als wenn sie einzeln verwendet wurden. Wir beobachteten jedoch einige Trends: Modellähnlichkeit: Wenn wir Modelle des gleichen Anbieters kombinierten, wie Sonnet 3.7 und Sonnet 4.0, oder Sonnet und Haiku, sahen wir keine wesentliche Leistungssteigerung. Sie waren einfach zu ähnlich. Verschiedene Anbieter: Nur durch die Kombination von Modellen unterschiedlicher Anbieter erzielten wir eine echte Verbesserung. Wann sollte man Modell-Legierungen verwenden? Wenn die Aufgabe eine Vielzahl von Ideen und Aktionen erfordert. Wenn verschiedene Modelle unterschiedliche Stärken aufweisen. Wenn eine höhere Variation in den Lösungen erwünscht ist. Wann sollte man Modell-Legierungen nicht verwenden? Wenn die Modelle sehr ähnlich sind. Wenn die Overhead-Kosten für die Implementierung zu hoch sind. Wenn kritische individuelle Aktionen erfordert werden, die besser durch direkte Kommunikation der Modelle durchgeführt werden sollten. Vergleichende Daten | Erster Agent | Zweiter Agent | Kombinierte Erfolgsrate | |--------------|---------------|------------------------| | Gemini 2.5 | Gemini 2.5 | 46.4% | | Sonnet 4.0 | Sonnet 4.0 | 57.5% | | Sonnet 4.0 | Gemini 2.5 | 57.2% | | Alloy 2.5 + 4.0 | Alloy 2.5 + 4.0 | 68.8% | Fazit der Branche Industrieexperten loben die Idee der Modell-Legierung, da sie eine effektive Methode zur Kombination der Stärken verschiedener KI-Modelle darstellt. Dies ist besonders nützlich in Aufgaben, die eine breite Palette von Ideen und Aktionen erfordern. XBOW nutzt diese Methode, um die Leistung seiner Penetrationstester zu maximieren und gleichzeitig den Overhead zu minimieren. Für Unternehmen, die auf KI-Technologien setzen, bietet die Modell-Legierung eine vielversprechende Option, um die Effizienz und Leistung ihrer Agenten zu steigern.XBOW, ein führendes Unternehmen in der automatisierten Penetrationstests, hat durch die Implementierung dieser Methode signifikante Verbesserungen erzielt.

Related Links