AI脆弱性検出ベンチ:他モデルもMythos迫る
2026年5月30日から6月22日にかけて、独立系エンジニアによる大規模言語モデルのセキュリティ脆弱性発見能力に関するベンチマーク調査が実施され、その結果が公開された。本調査はAnthropicの「Mythos」が報告する高度な脆弱性検出能力の真偽を検証することを主眼としており、Mythosが特定した9件の実在するコード脆弱性を学習データのカットオフ日以降のサンプルとして収集し、Opusモデルによる検証を経てベンチマークコーパスを構築した。テスト環境はヒントを一切提供しないブラインド状態とし、モデルにリポジトリ全体のコードアクセス権限と基礎的なツールのみを与えて自動スキャンをさせた。 調査結果では、Mythosが複数のマルチファイル脆弱性を検出し、他のテスト対象モデルが辿り着けなかったケースも確認された。これにより、Mythosが特別に構築されたツールチェーンやデバッガ連携などのアドバンテージを持つ可能性は高いと考察された。一方で、公開された一般利用可能なモデルの中にも注目すべき性能を示すものが存在した。特にQwen 3.6、MiMo、DeepSeekなどの中国発モデルは、商用モデルに匹敵する検出精度を維持しながら、コストは桁違いに低い水準を記録した。GoogleのGemini 3.5 Flashは従来のPro版を上回る検出率を達成したが、セキュリティ分析を拒否するガードレールがMistralやGeminiシリーズの一部で顕在化し、実務運用における課題も浮き彫りになった。また、Nemotronシリーズではモデルサイズが大きいほど検出精度が低下する逆相関が観察され、Gemma 4 MoEは高検出率を記録する一方でループに陥る失敗モードを示すなど、アーキテクチャごとの特性差が明確になった。 本調査の結果は、Mythosが現状の最先端モデル群の中でも特に脆弱性発見において優位性を保っている可能性を示唆している。ただし、Opusが十分なコンテキストを与えれば全脆弱性を正確に把握できる事実から、適切なツールリングやプロンプト設計、時間的リソースを投入すれば、現在の公開モデルでも同様の検出性能に達する可能性は十分にあると結論づけられている。技術コミュニティは、高度なセキュリティ解析ツールが特定企業に独占されている現状への懸念を強めており、今後は複数回の試行や異なる実装環境を用いた追加ベンチマークが計画されている。AIモデルのセキュリティ監査におけるアクセシビリティの向上と、独自ツールチェーンの技術的優位性の検証は、今後の開発動向における重要な焦点となる見込みである。
