HyperAI超神経
Back to Headlines

XBOW、AIモデルの合金化で脆弱性検出の成功率が大幅アップ この春、XBOWでは単純ながら革新的なアイデアによって、脆弱性検出エージェントの性能が劇的に向上しました。固定されたベンチマークと限定されたイテレーション数で、成功率が25%から40%へ、そして55%まで上昇しました。 XBOWは自動的なペネトレーションテストツールで、ウェブサイトに指向されるとその脆弱性を探し出し、報告します。この記事では、特定の課題に対するサブエージェントの改善方法について詳しく説明します。 AIモデルの合金化とは? 各モデルが特定の課題で異なる強みを持つことを活かし、モデルを組み合わせることで全体の性能を向上させる手法です。この方法は、複数の優れたアイデアが必要な課題に特に効果的です。 結果と展望 異なるプロバイダーのモデルを合金化することで、個々のモデルよりも高い成功率を達成しました。Gemini 2.5とSonnet 4.0の組み合わせでは、68.8%の成功率を記録しています。同じプロバイダーのモデルを組み合わせる場合は、性能の向上が見られませんでした。 アイデアの詳細 モデルの選択: 各イテレーションでランダムにモデルを選択。 シングルチャットスレッド: チャットは一貫性を保ちつつ、モデルの起源は非表示。 強みの発揮: 各モデルが自身の強みを発揮できる機会を提供。 適用例と制約 適用例: 検索空間が広く、多様なアイデアが必要な課題。 制約: 同じプロバイダーのモデルを組み合わせると効果が薄れ、複雑な意思決定プロセスでは非効率的。 詳細データの共有 データを公開していますので、興味のある方は自由に分析してください。また、類似の課題でこの手法を試していただいた結果もお聞かせください。

4日前

XBOW – モデルアロイによる脆弱性検出エージェントの改良 今年の春、XBOWにおいて新たなアイデアが生まれ、それは脆弱性検出エージェントの性能を大幅に向上させました。固定されたベンチマークにおいて、成功率が25%から40%へと向上し、その後さらに55%に達しました。 XBOWの挑戦 XBOWは自律的なペネトレーションテストツールです。ウェブサイトを指定すると、 XBOWはそのサイトの脆弱性をhackし、報告します。一連のテストには多くのタスクがあり、エージェントがその部分を調査し、Bugの種類を特定し、脆弱性を証明する必要があります。この過程は多くの誤った道に迷い込み、最終的に別の場所で成功することもあります。このタスクは、巨大な探索空間を掘るのに似ています。 実行モデル 当初はOpenAIのGPT-4が最適でしたが、AnthropicのSonnet 3.5が昨年6月に登場してそれまでのモデルを凌駕しました。その後、GoogleのGemini 2.5 Pro(3月プレビュー)がさらに性能を向上させ、 AnthropicはSonnet 4.0で再度反撃しました。ただし、個々のチャレンジでは Geminiの方が良い場合もあり、逆も同様です。 モデルアロイの概念 模型アロイとは異なるモデルを組み合わせて使用することです。例えば、最初はSonnetに行動を提案させ、次はGeminiにその行動の結果に基づいて次のアクションを指示させる。これにより、各モデルの強みが組み合わさり、全体の性能が向上します。 具体的な流れ: 1. システム: 「バグを見つけよ!」 2. Sonnet: 「アプリケーションのcurlを使って始める。」 3. ユーザー: 「401 Unauthorizedのレスポンスを受け取った。」 4. Gemini: 「管理者の資格情報でログインしよう。」 5. ユーザー: 「200 OKのレスポンスを受け取った。」 それぞれのモデルが自分の出力だと認識しているため、互いの強みを効果的に活かせます。 結果 複数のモデルを組み合わせた合金エージェントは、単体のエージェントよりも高性能を発揮しました。具体的には、Gemini 2.5とSonnet 4.0の合金エージェントで68.8%の成功率を達成しました。 しかし、合金エージェントにはいくつかの制約があります。同じプロバイダーの異なるモデル(例えばSonnet 3.7とSonnet 4.0)を使用した場合は、性能の向上がありませんでした。それぞれが似すぎているため、互いの補完効果が薄れてしまうと考えられます。 結論 不同のプロバイダーから提供されるモデルを組み合わせると、大きな性能向上が期待できます。二つの頭脳が一堂に会することで、単独での性能を超える結果が得られました。 相关评论与公司概况 この新しいアプローチは、AIコミュニティの注目を集めています。業界関係者の中には「この方法は他の分野でも応用できる」と述べる人もいます。XBOWは自動化されたセキュリティテストの先駆者であり、今後も革新的なソリューションを提供することが期待されています。

Related Links