HyperAIHyperAI

Command Palette

Search for a command to run...

LLMs échouent à 71 % sur les tâches réelles d’ingénierie SRE : Quesma lance OTelBench pour mesurer la vraie capacité des IA en instrumentation production

Quesma lance OTelBench : un nouveau benchmark indépendant révèle que les modèles LLM de pointe peinent face aux tâches réelles d’ingénierie de fiabilité des systèmes (SRE) WARSAW, Pologne — Quesma, Inc. a annoncé le lancement d’OTelBench, le premier benchmark indépendant dédié à l’évaluation des modèles de langage de grande taille (LLM) sur des tâches d’instrumentation OpenTelemetry. Les résultats révèlent un écart significatif entre les capacités de codage démontrées par les modèles les plus avancés et leur efficacité dans des environnements réels de production, où la fiabilité est primordiale. Selon cette étude, les meilleurs modèles d’IA, dont Claude Opus 4.5, n’ont réussi que 29 % des tâches évaluées, un taux bien en dessous des performances observées sur d’autres benchmarks comme SWE-Bench (80,9 %). Ce résultat met en lumière une faille critique : même si les LLM sont capables de générer du code fonctionnel dans des cas simples, ils échouent face aux exigences complexes et contextuelles de l’ingénierie SRE en production. Dans les entreprises, les pannes coûtent en moyenne 1,4 million de dollars par heure, rendant la visibilité sur les systèmes une priorité absolue. Pourtant, 39 % des organisations indiquent que la complexité est leur principal obstacle à une bonne observabilité. OTelBench a identifié un problème majeur : la propagation du contexte, fondamentale pour le traçage distribué, reste une barrière insurmontable pour la plupart des modèles. Cette limitation compromet gravement la capacité des systèmes d’IA à assurer une instrumentation fiable dans des architectures à grande échelle. Les performances varient fortement selon le langage. Les modèles ont montré une certaine maîtrise du Go, et de manière surprenante, du C++. Quelques tâches ont été résolues en JavaScript, PHP, .NET et Python. En revanche, un seul modèle a réussi une seule tâche en Rust, et aucun n’a pu traiter une seule tâche en Swift, Ruby ou Java. « Le socle de l’industrie logicielle repose sur des systèmes complexes, à grande échelle et critiques en matière de fiabilité », déclare Jacek Migdał, fondateur de Quesma. « OTelBench démontre que, malgré leur puissance en génération de code, les LLM ne sont pas encore capables de réaliser des tâches fondamentales d’instrumentation, même à petite échelle, ni de résoudre des problèmes complexes dans un contexte de production. De nombreux fournisseurs commercialisent des solutions d’IA SRE avec des promesses ambitieuses, mais sans validation indépendante. » Migdał compare l’état actuel de l’IA SRE à celui du détection d’anomalies DevOps en 2016 : beaucoup de marketing, peu de preuves concrètes. « C’est pourquoi nous avons rendu OTelBench open source : pour offrir une boussole fiable dans la tempête de l’excitation autour de l’IA, et permettre à la communauté de mesurer l’évolution réelle des capacités des modèles. » OTelBench est désormais disponible au lien suivant : https://quesma.com/benchmarks/otel/ À propos de Quesma : Quesma accompagne les laboratoires de LLM de pointe et les développeurs d’agents intelligents grâce à des évaluations indépendantes et des environnements de simulation avancés. La société propose des benchmarks dans des domaines clés tels que le DevOps, la sécurité et les migrations de bases de données. Quesma est soutenue par Heartcore Capital, Inovo, Firestreak Ventures, ainsi que par plusieurs investisseurs individuels, dont Christina Beedgen, co-fondatrice de Sumo Logic. Pour en savoir plus, rendez-vous sur www.quesma.com ou suivez-les sur LinkedIn.

Liens associés