تقييم نماذج الذكاء الاصطناعي لكشف الثغرات الأمنية
أجريت اختبارات مستقلة شملت مقارنة أداء عدة نماذج ذكاء اصطناعي أمام نظام Mytos المطور من قبل أنثروبيك، بهدف تقييم القدرات الفعلية للنماذج العامة في اكتشاف الثغرات الأمنية المعقدة. شملت الاختبارات التي استمرت بين أواخر مايو وأواخر يونيو 2026، تسعة ثغرات حقيقية تم الكشف عنها حديثاً وخارج نطاق التدريب المعروف للنماذج، وتم تشغيلها في بيئات معزولة ودون أي تلميحات مسبقة لمحاكاة عمليات التدقيق الأمني الواقعية. أظهرت النتائج أن نظام Mytos، عبر نموذج Opus، حافظ على تفوقه من خلال اكتشاف أربعة ثغرات لم يلمسها أي نموذج آخر في التجربة، مما يعزز فكرة وجود أفضلية تقنية أو أدوات متقدمة مدمجة. ومع ذلك، كشفت الاختبارات المتعددة عن قدرة ملحوظة لعدة نماذج مفتوحة ومنخفضة التكلفة على منافسة الطرازات التجارية المتطورة. برز نموذج Qwen 3.6 وبنكهة ثمانية وعشرين بارامتراً كأبرز المنافسين، حيث حقق دقة عالية مع معدلات خطأ منخفضة، متفوقاً على نماذج تجارية كبيرة مثل Sonnet و Gemini 3.1 Pro. كما أظهرت نماذج MiMo و DeepSeek كفاءة استثنائية من حيث التكلفة مقابل الأداء، مما جعلها خيارات مجدية للفرق ذات الميزانيات المحدودة. سجل نموذج Gemini 3.5 Flash تفوقاً واضحاً على الإصدار 3.1 Pro، مع تقليل كبير في الاكتشافات الخاطئة. في حين سجل Gemma 4 بنمط Mix of Experts نتائج مبهرة باكتشافه لأربع ثغرات بدقة عالية، إلا أن طبيعة عمله جعلته عرضة للدخول في حلقات تكرارية تؤدي إلى انتهاء المهلة الزمنية، مما يحد من كفاءته العملية في الوقت الراهن. على النقيض، أظهرت نماذج مثل Mistral Medium و Laguna M.1 أداءً دون التوقعات، إما بسبب رفض تحليل الكود لأسباب أمنية صارمة أو عدم كفاءتها في تتبع التعقيدات متعددة الملفات. أبرزت التجربة أيضاً علاقة عكسية غير متوقعة بين حجم النموذج وأدائه في بعض العائلات التقنية، حيث تفوقت إصدارات أصغر على نظيرتها الأكبر حجماً. كما أكد البحث أن الأدوات المساعدة والوكائل الذكية لم ترفع بشكل ملحوظ من دقة النماذج، بل زادت من استهلاك الرموز والتكلفة دون مردود عملي ملموس. يشير هذا التقييم إلى أن الادعاءات الرسمية حول التفرد المطلق لنظام Mytos قد تكون مبالغاً فيها إلى حد ما. تثبت البيانات المتاحة أن النماذج المتاحة للجمهور، عند تزويدها بأدوات تدقيق مناسبة ووقت كافٍ للمعالجة، قادرة على تحقيق مستويات تنافسية قوية في مجال الأمان السيبراني. يُوصي المحللون بالتركيز على نماذج تجمع بين الكفاءة السعرية والأداء الثابت، مع الحاجة إلى مزيد من الاختبارات المعتمدة على محاولات متعددة وقواعد بيانات أوسع لتأكيد الاستنتاجات طويلة المدى.
