HyperAIHyperAI

Command Palette

Search for a command to run...

GLM 5.2、サイバーベンチでClaudeを上回る

セムグランプは2026年6月中旬、IDOR脆弱性検出性能を評価する独自ベンチマークを実施し、Zhipu AIのオープンウェイトモデルGLM-5.2が最先端プロプライエタリエージェントを上回る結果を得た。同社の専用ハーネスを用いず基本プロンプトのみで動作させた条件で、GLM-5.2はF1スコア39%を記録。Claude Codeの32%を大きく引き離し、単一脆弱性検出あたりの推論コストは約0.17ドルに収まった。 GLM-5.2はMoEアーキテクチャを採用し、総パラメータ約7500億、アクティブ推論400億を備える。コンテキストウィンドウは1Mトークンまで拡張され、複数ファイルにわたる承認ロジックの追跡や長期エージェントタスクにおける情報一貫性の維持に優れる。セキュリティ領域では、MITライセンス下で重み公開され社内環境での完全なオフライン運用・ファインチューニングが可能である点が強く評価されており、データ流出リスクを排除しつつAI検知能力を高めたい組織にとって現実的な選択肢となりつつある。 ベンチマーク分析から明確になったのは、モデル単体の推論能力よりも、コードベースの整形やエンドポイント特定などの構造化支援を行うハーネスの設計が検出精度を支配するという点である。Semgrepの専用マルチモーダルパイプラインはGPT-5.5で61%、Opus 4.8で53%のF1スコアを記録し、環境支援の有無が性能差の主要因となった。しかし、同様の支援を一切受けない最小限の環境でもGLM-5.2がClaude Codeを上回ったことは、オープンウェイトモデルの技術的成熟度が実用段階に入ったことを示す顕著な指標である。 同社エンジニアリングチームは、本結果がIDORという単一タスクおよび有限データセットに基づくものであるため、他の脆弱性タイプや実環境への一般化を控えるよう注意を促している。SSRFやロジックインジェクションなど検出手法が異なるカテゴリでは性能特性が変化する可能性があり、非確実性の高いセキュリティ分析では継続的な検証が不可欠である。ただし、最先端モデルに対するベンダーロックインを回避しつつ、同等以上の検出性能を六分の一のコストで実現できる点は、セキュリティチームの技術選定と予算配分戦略に明確な転換をもたらす。オープンウェイトモデルの実用性が実証された本次第は、AIセキュリティ領域におけるコスト最適化とモデル多様化の議論において、重要なマイルストーンとなる。

関連リンク