Quesma 发布 OTelBench:独立测试揭示大模型在真实SRE任务中表现短板
Quesma公司发布首个独立基准测试工具OTelBench,揭示当前前沿大语言模型(LLM)在真实生产环境中的站点可靠性工程(SRE)任务中表现严重不足。该测试聚焦OpenTelemetry(OTel)数据采集与追踪配置,结果显示,顶尖模型在完成相关任务时平均通过率仅为29%,暴露出AI在实际工程应用中的巨大能力鸿沟。 尽管如Claude Opus 4.5等先进模型在代码生成方面表现出色,其在OTelBench上的通过率仍远低于SWE-Bench测试中的80.9%,表明AI在编写代码与解决真实世界SRE问题之间存在显著差距。尤其值得注意的是,大多数模型无法正确处理“上下文传播”这一分布式追踪的核心机制,而该能力是实现系统可观测性的基础。 测试发现,模型在Go语言和C++上表现相对较好,部分任务在JavaScript、PHP、.NET和Python中也取得一定进展,但仅有一款模型完成了一个Rust任务,而Swift、Ruby和Java任务则无一成功。这表明当前AI在多语言、复杂生产系统中的适配能力极为有限。 Quesma创始人Jacek Migdał指出,现代软件系统依赖高可用、大规模的生产架构,而企业平均每小时因系统中断损失高达140万美元。然而,39%的组织表示,复杂性是其可观测性落地的主要障碍。AI SRE解决方案虽被广泛宣传,但缺乏独立验证,存在“营销大于实效”的风险。 “2026年的AI SRE,就像2016年的DevOps异常检测——概念火爆,但缺乏客观评估标准。”Migdał强调,发布OTelBench正是为了建立行业“北极星”标准,推动社区以真实数据衡量AI在工程落地中的进步。 OTelBench现已开源,可访问https://quesma.com/benchmarks/otel/获取。Quesma致力于为前沿AI实验室和智能体开发者提供独立评估与高级仿真环境,覆盖DevOps、安全、数据库迁移等关键领域,其投资方包括Heartcore Capital、Inovo、Firestreak Ventures及Sumo Logic联合创始人Christina Beedgen等。
