HyperAI
Back to Headlines

زيادة فعالية وكيل اكتشاف الثغرات في XBOW through نموذج الأائك: تحسين الأداء من 25% إلى 55%

منذ 4 أيام

XBOW – الوكيل المستمد من السبائك في هذا الربيع، طورت شركة XBOW فكرة بسيطة ولكنها جديدة، أدت إلى تحسين كبير في أداء وكالاتها للكشف عن الثغرات الأمنية. على مجموعة معايير ثابتة ومع عدد محدود من الدورات، ارتفعت معدلات النجاح من 25% إلى 40%، ثم إلى 55% بعد فترة قصيرة. تحدي XBOW XBOW هي نظام اختبار اختراق آلي. يتم توجيهه إلى موقع الويب الخاص بك، ويحاول اختراقه. إذا نجح في العثور على ثغرة (وهو ما يجيده XBOW)، فإنه يقوم بإبلاغك بها لتصحيحها. النظام آلي تمامًا، مما يعني أنه بمجرد إعداده الأولي، لا يُسمح بأي تدخل بشري آخر. عند اختبار الأصول، هناك الكثير من الأعمال التنظيمية التي يجب القيام بها. يجب تشغيل أدوات الكشف وإنشاء نموذج ذهني للموقع الإلكتروني، تكنولوجيته، منطقته، وسطحيته الهجومية، ثم تحديث هذا النموذج باستمرار، بناء الفرضيات وتخلص منها من خلال اختبار كل جزء منه بطرق مختلفة. هذه مسألة معقدة، لكنها ليست موضوع هذه المقالة. سأتحدث عن مهمة فرعية معينة تحدث مئات المرات في كل اختبار، والتي تم تصميم وكيل فرعي خاص لها: يتم توجيهك إلى جزء من السطح الهجومي، وتعرف نوع الثغرة التي تبحث عنها، وعليك إثبات وجودها. هذه المهمة تشبه المسابقات التقنية (CTF): تحاول العثور على "العلم" الذي يمكن الحصول عليه فقط من خلال استغلال ثغرة موجودة في موقع معين. في الواقع، بنينا مجموعة معايير من هذه المهام وقمنا بتغليفها بطريقة تشبه المسابقات التقنية حتى نتمكن من تكرارها وتقييم أداء وكيلنا "المحلل" عليها بسهولة. ومع أن المجموعة الأصلية فقدت معظم فائدتها بسبب كفاءة وكيلنا العالي، استفدنا أمثلة أصعب من مشاريع مصدر مفتوح أخرى. مهمة الوكيل في مسابقة تقنية مشابهة، يقوم المحلل بتنفيذ حلقة عملية محددة لعدد من الدورات. في كل دورة، يقرر المحلل على إجراء: أمر في الطرفية، كتابة نص برمجي بلغة Python، تشغيل أحد أدوات الاختراق الخاصة بنا. نتحقق من الإجراء ونقوم بتنفيذه، ثم نعرض النتيجة للمحلل ليقرر الخطوة التالية. بعد عدد ثابت من الدورات، نتوقف عن المحاولات. عادةً وفي التجارب التي سيتم الحديث عنها هنا، يكون هذا العدد 80: بينما لا يزال من الممكن حل الثغرات بعد المزيد من الدورات، فإن بدء وكيل محلل جديد دون أعباء الفهم الخاطئ والافتراضات الخاطئة التي تراكمت مع مرور الوقت يكون أكثر كفاءة. ما يجعل هذه المهمة خاصة كمهمة وكيل هو أنها تشبه التنقيب عبر مساحة بحث شاسعة: يقوم الوكيل بالتنقيب في العديد من الأماكن، يتبع خيوطًا خاطئة لفترة، ثم يصلح المسار في مكان آخر ويحقق هدفه. خلال كل تحدي، سيحتاج الوكيل الذكي إلى توليد ودمج بعض الأفكار الممتازة بين العديد من المسارات الخاطئة. إذا واجهت يومًا مهمة وكيل ذكاء اصطناعي مشابهة، قد تكون السبائك مناسبة لك. النموذج اللغوي (LLM) منذ البداية، كان جزءًا من استراتيجيتنا للذكاء الاصطناعي أن يكون XBOW مستقلًا عن مزود النماذج. هذا يعني أن我们可以随意插拔最适合我们用例的最佳语言模型。通过我们的基准测试集,我们可以轻松地比较不同模型,并且我们会持续评估新的模型。一段时间以来,OpenAI的GPT-4是我们评估过的最佳现成模型,但自从Anthropic在去年6月推出Sonnet 3.5以来,没有其他供应商能够接近其性能,无论我们测试了多少。 Sonnet 3.7相对于前一代产品有所改进,尽管幅度不大,但当谷歌在今年3月发布Gemini 2.5 Pro(预览版)时,它带来了真正的提升。随后,Anthropic推出了Sonnet 4.0,表现更好。然而,在个别挑战中,有些问题更适合Gemini解决,有些则更适合Sonnet解决。 السبائك المستخدمة في الوكلاء 类似于大多数典型的AI代理,我们在一个循环中调用模型。合金背后的想法很简单:不要总是调用同一个模型,有时调用一个,有时调用另一个。 关键在于,你仍然保持与一个用户和一个助手的单一聊天线程。因此,虽然会话中助理消息的真实来源交替出现,但模型彼此之间并不知情。无论其他模型说了什么,它们都认为是自己说的。 例如,在第一轮中,你可能会使用以下提示调用Sonnet开始行动: 系统:找到这个漏洞! 假设Sonnet告诉你使用curl。你执行了这一操作并收集了输出结果,然后将其呈现给Gemini: 系统:找到这个漏洞! 助理:让我们先用curl访问应用程序。 用户:你得到了401未授权响应。 Gemini可能会建议你使用管理员凭证登录,你执行了这一操作,然后将结果呈现给Sonnet: 系统:找到这个漏洞! 助理:让我们先用curl访问应用程序。 用户:你得到了401未授权响应。 助理:让我们尝试使用管理员凭证登录。 用户:你得到了200 OK响应。 在这种情况下,一些Sonnet认为是自己写的消息实际上是Gemini撰写的,反之亦然。 在我们的实现中,我们实际上随机选择模型以增加多样性,但你也可以交替使用或尝试更复杂的策略。 将两个(有时是三个)模型混合成合金的关键优势在于: - 你保持了相同的总模型调用次数,但 - 每个模型都有机会贡献其优势来解决问题。 在一个需要几个天才想法和类似工作马的后续行动交织在一起的情况下,这是一种结合不同模型优势的好方法。 结果 就像金属合金比其单个成分更强一样,无论我们组合哪两个(有时是三个)模型,合金的表现都优于单独使用的模型。Sonnet 3.7、GPT-4.1、Gemini 2.5 Pro和Sonnet 4.0在合金化后都表现得更好。 但我们观察到了一些趋势: 当使用合金时: 在需要多个不同模型优势的情况下。 当任务涉及多条路径,每条路径都需要不同的见解时。 当个别模型在某些特定类型的挑战上表现不佳时。 何时不使用模型合金: 当任务需要高度一致性和稳定性时。 当模型之间的相似性很高时,例如来自同一供应商的模型。 当模型调用的开销成为问题时。 当我们尝试将同一供应商的不同模型合金化时,例如Sonnet 3.7和Sonnet 4.0,或者Sonnet和Haiku,我们发现性能只是这两个组成部分的平均水平,没有更多提升。它们太相似了,以至于无法实现真正的协同效应。只有当我们将来自不同供应商的模型组合时,才看到了明显的提升。 数据 如果你有兴趣使用我们的数据进行实验,请随时访问我们的共享链接——也许你会发现我们遗漏的某些东西。更重要的是,如果你有一个你认为模型合金可能有所帮助的用例,不妨试一试!并写信给我分享你的经验,邮箱地址是 [email protected]——我非常期待听到你的反馈! 总结 XBOW通过创建模型合金显著提高了其漏洞检测代理的性能。这种技术允许不同模型的优势互补,从而在复杂的搜索任务中取得更好的结果。然而,模型合金并非适用于所有情况,特别是在任务需要高度一致性或模型过于相似时。如果你有类似的用例,不妨尝试一下模型合金,它可能会带来意想不到的惊喜。 专家评估 مبدأ السبائك ليس جديدًا في مجال الذكاء الاصطناعي، ولكن تطبيقه في مهام وكيل الذكاء الاصطناعي كتلك التي تقوم بها XBOW يعتبر مبتكرًا. العديد من الخبراء في مجال الأمن السيبراني والذكاء الاصطناعي يرون أن هذا النهج يمكن أن يفتح آفاقًا جديدة في تحسين أداء الأنظمة الذكية في مهام الاختبار الأمني. الشركة XBOW XBOW هي شركة رائدة في مجال الاختبار الأمني الآلي. تأسست عام 2021، وتهدف إلى توفير أدوات ذكية وفعالة للكشف عن الثغرات الأمنية في التطبيقات والأنظمة الرقمية. تتميز الشركة بقدرتها على التكيف والتطور المستمر، حيث تستخدم الذكاء الاصطناعي لتوفير حلول آمنة ومبتكرة لعملائها.

Related Links