Command Palette
Search for a command to run...
كلاوديني: أوتوريسيرتش تكتشف خوارزميات هجمات معادية حديثة الذروة لـ LLMs
كلاوديني: أوتوريسيرتش تكتشف خوارزميات هجمات معادية حديثة الذروة لـ LLMs
Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko
الملخص
يمكن لوكلاء نماذج اللغة الكبيرة (LLM agents) مثل Claude Code ليس فقط كتابة الأكواد البرمجية، بل أيضًا استخدامها في أبحاث وهندسة الذكاء الاصطناعي المستقلة \citep{rank2026posttrainbench, novikov2025alphaevolve}. نبيّن في هذه الدراسة أن خطّة عمل (pipeline) من نمط \emph{autoresearch} \citep{karpathy2026autoresearch} المدعومة بـ Claude Code قادرة على اكتشاف خوارزميات جديدة لهجمات الخصومية ذات الصندوق الأبيض (white-box adversarial attack algorithms)، تتفوق بشكل \textbf{كبير على جميع الطرق الموجودة (أكثر من 30 طريقة)} في تقييمات اختراق الحماية (jailbreaking) وحقن الأوامر (prompt injection). بدءًا من تطبيقات هجمات موجودة، مثل GCG~\citep{zou2023universal}، يقوم الوكيل بإجراء دورات تكرارية لإنتاج خوارزميات جديدة تحقق معدل نجاح هجمة يصل إلى 40% على استعلامات CBRN الموجهة إلى نموذج GPT-OSS-Safeguard-20B، مقارنةً بما لا يتجاوز 10% للخوارزميات الحالية (\Cref{fig:teaser}، اليسار). وتتميز الخوارزميات المكتشفة بقدرة تعميم عالية: حيث تنتقل الهجمات المُحسَّنة على نماذج بديلة (surrogate models) مباشرةً إلى نماذج مُحتجَزة (held-out models)، محققةً \textbf{معدل نجاح هجمة (ASR) يبلغ 100% ضد نموذج Meta-SecAlign-70B} \citep{chen2025secalign}، مقابل 56% لأفضل خط أساس (\Cref{fig:teaser}، الوسط). وبتمديد لنتائج دراسة \cite{carlini2025autoadvexbench}، تُعدّ نتائجنا دليلًا مبكرًا على إمكانية أتمتة أبحاث الأمان والسلامة التدريجية باستخدام وكلاء نماذج اللغة الكبيرة (LLM agents). وتُعدّ اختبارات الاختراق الخصومية ذات الصندوق الأبيض (white-box adversarial red-teaming) مناسبةً بشكل خاص لهذا الغرض: حيث توفر الطرق القائمة نقاط انطلاق قوية، كما أن هدف التحسين يُنتج تغذية راجعة كثيفة وكمية.