الملخص

يمكن لوكلاء نماذج اللغة الكبيرة (LLM agents) مثل Claude Code ليس فقط كتابة الأكواد البرمجية، بل أيضًا استخدامها في أبحاث وهندسة الذكاء الاصطناعي المستقلة \citep{rank2026posttrainbench, novikov2025alphaevolve}. نبيّن في هذه الدراسة أن خطّة عمل (pipeline) من نمط \emph{autoresearch} \citep{karpathy2026autoresearch} المدعومة بـ Claude Code قادرة على اكتشاف خوارزميات جديدة لهجمات الخصومية ذات الصندوق الأبيض (white-box adversarial attack algorithms)، تتفوق بشكل \textbf{كبير على جميع الطرق الموجودة (أكثر من 30 طريقة)} في تقييمات اختراق الحماية (jailbreaking) وحقن الأوامر (prompt injection). بدءًا من تطبيقات هجمات موجودة، مثل GCG~\citep{zou2023universal}، يقوم الوكيل بإجراء دورات تكرارية لإنتاج خوارزميات جديدة تحقق معدل نجاح هجمة يصل إلى 40% على استعلامات CBRN الموجهة إلى نموذج GPT-OSS-Safeguard-20B، مقارنةً بما لا يتجاوز 10% للخوارزميات الحالية (\Cref{fig:teaser}، اليسار). وتتميز الخوارزميات المكتشفة بقدرة تعميم عالية: حيث تنتقل الهجمات المُحسَّنة على نماذج بديلة (surrogate models) مباشرةً إلى نماذج مُحتجَزة (held-out models)، محققةً \textbf{معدل نجاح هجمة (ASR) يبلغ 100% ضد نموذج Meta-SecAlign-70B} \citep{chen2025secalign}، مقابل 56% لأفضل خط أساس (\Cref{fig:teaser}، الوسط). وبتمديد لنتائج دراسة \cite{carlini2025autoadvexbench}، تُعدّ نتائجنا دليلًا مبكرًا على إمكانية أتمتة أبحاث الأمان والسلامة التدريجية باستخدام وكلاء نماذج اللغة الكبيرة (LLM agents). وتُعدّ اختبارات الاختراق الخصومية ذات الصندوق الأبيض (white-box adversarial red-teaming) مناسبةً بشكل خاص لهذا الغرض: حيث توفر الطرق القائمة نقاط انطلاق قوية، كما أن هدف التحسين يُنتج تغذية راجعة كثيفة وكمية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار