HyperAIHyperAI

Command Palette

Search for a command to run...

LLMがプロダクションSREタスクで29%の正解率 OTelBenchで明らかに

Quesma社が、生産環境向けのサイト信頼性工学(SRE)タスクにおける大規模言語モデル(LLM)の実力に大きな隔たりがあることを示す独立ベンチマーク「OTelBench」を公開した。同ベンチマークは、OpenTelemetryによるコードインストルメンテーションの実行能力を評価する世界初の包括的テストで、トップクラスのLLMでもわずか29%のタスク達成率にとどまった。これは、SWE-Benchにおける80.9%の達成率と比べて顕著な差異を示しており、AIのコード生成能力と実際の生産環境対応力の間には深刻なギャップがあることを突きつけている。 特に問題となったのは「コンテキストプロパゲーション」の処理で、これは分散トレーシングの根幹を成す技術である。しかし、ほとんどのモデルがこのタスクをクリアできず、生産環境での可視性確保というSREの基本的要件を満たせないことが明らかになった。企業のシステム障害は平均して1時間あたり140万ドルの損失をもたらすため、こうした可視性の欠如は重大なリスクである。 Jacek Migdał氏、Quesmaの創業者は「ソフトウェア業界の基盤は高スケールでミッションクリティカルなシステムで構成されている。しかし、LLMは小規模なインストルメンテーションさえ正確に実行できず、エンドツーエンドの問題解決能力に欠ける」と指摘。また、多くのベンダーがAI SREソリューションを宣伝しているが、その裏には独立した検証がなく、過剰なマーケティングに満ちていると警鐘を鳴らした。 言語別では、GoとC++ではある程度の成功が見られ、JavaScript、PHP、.NET、Pythonでも一部のタスクが完了したが、Rustでは1つのタスクのみ、Swift、Ruby、Javaではすべてのモデルがタスクを達成できなかった。この結果は、AIが特定言語や環境に依存する課題を抱えていることを示唆している。 Migdał氏は「2026年のAI SREは、2016年のDevOps異常検出と同じく、マーケティングの盛り上がりに過ぎない可能性がある」とし、OTelBenchをオープンソースとして公開することで、業界のAI進捗を客観的に評価する「北極星」とする狙いを明かした。OTelBenchは現在、https://quesma.com/benchmarks/otel/ で公開されている。

関連リンク