LLMs zeigen Schwächen bei SRE-Aufgaben: OTelBench-Test ergibt 29 % Erfolgsquote
Quesma, ein polnisches Tech-Unternehmen, hat OTelBench vorgestellt – die erste unabhängige Benchmark zur Bewertung von großen Sprachmodellen (LLMs) bei Aufgaben der OpenTelemetry-Instrumentierung. Die Studie offenbart eine erhebliche Lücke zwischen den kreativen Codierungsfähigkeiten von KI-Modellen und ihren Fähigkeiten im Bereich der echten, produktionssicheren Site Reliability Engineering (SRE)-Arbeit. Trotz der beeindruckenden Leistungen von Frontier-LLMs bei reinen Programmieraufgaben erreichten die besten Modelle nur eine Erfolgsquote von 29 Prozent bei der korrekten Implementierung von OpenTelemetry-Code in realen SRE-Szenarien. Der Spitzenreiter, Claude Opus 4.5, erreichte damit deutlich weniger als die 80,9 Prozent, die bei der SWE-Bench-Testreihe erzielt wurden, was auf einen fundamentalen Unterschied in der Komplexität und den Anforderungen an Produktionsumgebungen hinweist. Die Benchmark umfasst eine Vielzahl von Sprachen und Szenarien, darunter Go, C++, JavaScript, PHP, .NET, Python, Rust, Swift, Ruby und Java. Während einige Modelle moderate Erfolge bei Go und überraschenderweise auch bei C++ erzielten, gelang nur einem Modell eine Aufgabe in Rust, und keine einzige Lösung wurde für Swift, Ruby oder Java gefunden. Ein besonders kritischer Punkt war die fehlende Fähigkeit der Modelle, Kontextpropagation korrekt zu implementieren – eine zentrale Komponente für verteiltes Tracing, das für die Fehlersuche in Mikroservices-Architekturen unerlässlich ist. Diese Lücke ist besonders besorgniserregend, da Unternehmen durch Ausfälle durchschnittlich 1,4 Millionen US-Dollar pro Stunde verlieren, und 39 Prozent der Organisationen die Komplexität als größtes Hindernis für ihre Observability-Strategie nennen. Jacek Migdał, Gründer von Quesma, betont, dass die Grundlage der modernen Softwareindustrie aus hochskaligen, zuverlässigen Systemen besteht, die jedoch von KI-Modellen bisher nicht ausreichend unterstützt werden können. „Die meisten Anbieter werben mit KI-SRE-Lösungen, ohne unabhängige Validierung“, so Migdał. „OTelBench soll als North Star dienen, um die Hype-Phasen zu durchbrechen und echte Fortschritte messbar zu machen.“ Die Benchmark ist als Open-Source-Projekt verfügbar und soll der Community helfen, die Entwicklung von KI in der Infrastruktur- und Operations-Technologie transparent zu verfolgen. OTelBench ist ab sofort unter https://quesma.com/benchmarks/otel/ zugänglich. Quesma selbst unterstützt führende LLM-Labore und Entwickler von KI-Agenten mit unabhängigen Evaluierungen und fortschrittlichen Simulationsumgebungen in Bereichen wie DevOps, Sicherheit und Datenbankmigrationen. Das Unternehmen wird von Heartcore Capital, Inovo, Firestreak Ventures und mehreren Investoren, darunter Christina Beedgen, Mitbegründerin von Sumo Logic, unterstützt. Die Ergebnisse von OTelBench werfen ernsthafte Fragen über die praktische Reife von KI in der Produktion auf. Während die Modellleistungen bei reinen Codeerzeugung beeindruckend sind, zeigen sie erhebliche Schwächen bei der Integration in komplexe, reale Systeme. Branchenexperten warnen davor, KI-SRE-Lösungen ohne fundierte Tests zu übernehmen. Die Einführung von Benchmarks wie OTelBench ist ein entscheidender Schritt, um die Brücke zwischen KI-Hype und technischer Realität zu schließen.
