IBM und UC Berkeley entschlüsseln Fehler von Unternehmensagenten mit ITBench und MAST
IBM und die University of California, Berkeley, haben gemeinsam untersucht, warum agente LLM-Systeme in unternehmenskritischen IT-Automatisierungsaufgaben versagen. Ziel war es, die Ursachen für Fehler in langen, mehrschrittigen Werkzeug-Loops zu entschlüsseln – etwa bei der Fehlerdiagnose, der Analyse von Logs und Metriken oder der Steuerung von Kubernetes-Systemen. Dazu nutzten sie den Industry-Standard IT-Bench, einen Benchmark für SRE-, Sicherheits- und FinOps-Automatisierung, und kombinierten ihn mit MAST (Multi-Agent System Failure Taxonomy), einem neuen Ansatz zur strukturierten Diagnose von Fehlern in agenten Systemen. Anstatt nur eine Erfolgsquote zu liefern – was die Frage „Ob“ ein System scheiterte, aber nicht „Warum“ – analysierten die Forscher 310 SRE-Trace-Aufzeichnungen von drei Modellen: Gemini-3-Flash, Kimi-K2 und GPT-OSS-120B. Mit MAST konnten sie unstrukturierte Ausführungslogs in klare, kategorisierte „Fehlervektoren“ umwandeln, die auf 14 unterschiedliche Fehlermuster über drei Hauptkategorien verteilt waren. Die wichtigsten Erkenntnisse zeigen deutliche Unterschiede in den Versagensmustern je nach Modell. Gemini-3-Flash, ein hochleistungsfähiges Closed-Source-Modell, zeigt eine „chirurgische“ Fehlerstruktur: selbst bei Fehlern tritt meist nur ein isolierter Fehler auf, etwa eine falsche Überprüfung (FM-3.3), was die Diagnose und Verbesserung vereinfacht. Im Gegensatz dazu leidet GPT-OSS-120B unter systemischen Zusammenbrüchen: Durchschnittlich 5,3 verschiedene Fehler pro fehlgeschlagener Lauf, oft ausgelöst durch kleine Denkfehler, die sich über die Zeit akkumulieren. Kimi-K2 liegt dazwischen – häufige, aber weniger kritische Fehler, vor allem eine starke Diskrepanz zwischen Denken und Handeln (FM-2.6). Ein zentraler Erkenntnisgewinn ist die Unterscheidung zwischen „nicht tödlichen“ und „tödlichen“ Fehlern. Nicht tödliche Fehler wie Wiederholungen treten auch in erfolgreichen Durchläufen auf und sind oft strukturell bedingt, während tödliche Fehler wie falsche Überprüfung oder Unkenntnis von Beendigungsbedingungen (FM-1.5) den Erfolg nahezu ausschließen. Bei Gemini-3-Flash war FM-3.3 mit einem 52-prozentigen Anstieg in fehlgeschlagenen Runs der dominierende Faktor – ein Hinweis auf Überzeugung ohne Beweis. Hier hilft eine externe Verifikation, etwa durch Werkzeugausgaben (z. B. klare Alerts oder K8s-Statusänderungen), bevor das System sich selbst als erfolgreich deklariert. Für Kimi-K2 empfiehlt sich ein deterministischer Zustandsautomat, um die Überreaktion und Schwierigkeiten beim Beenden von Aufgaben zu korrigieren. GPT-OSS-120B erfordert dagegen eine aggressive Kontexthygiene und frühe Fehlererkennung, um kleinste Abweichungen im Denkprozess zu verhindern, die sonst zu einem kompletten Systemabsturz führen. Industrieexperten sehen in MAST einen Wendepunkt: Statt bloße Erfolgsraten zu vergleichen, erlaubt die Methode nun gezielte Fehlerdiagnosen und maßgeschneiderte Verbesserungen. Die Kombination aus IT-Bench und MAST liefert nicht nur eine genauere Bewertung, sondern einen konkreten Entwicklungspfad für robustere agente Systeme – besonders relevant für kritische IT-Infrastrukturen, wo ein fehlgeschlagener Automatisierungslauf schwerwiegende Folgen haben kann. IBM Research und UC Berkeley zeigen damit, dass die Zukunft der agenten KI nicht in höheren Modellgrößen, sondern in besserer Fehlerdiagnose und systematischer Verlässlichkeit liegt.
