HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 ساعات
LLM
DeepSeek

كلاوديني: أوتوريسيرتش تكتشف خوارزميات هجمات معادية حديثة الذروة لـ LLMs

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

الملخص

يمكن لوكلاء نماذج اللغة الكبيرة (LLM agents) مثل Claude Code ليس فقط كتابة الأكواد البرمجية، بل أيضًا استخدامها في أبحاث وهندسة الذكاء الاصطناعي المستقلة \citep{rank2026posttrainbench, novikov2025alphaevolve}. نبيّن في هذه الدراسة أن خطّة عمل (pipeline) من نمط \emph{autoresearch} \citep{karpathy2026autoresearch} المدعومة بـ Claude Code قادرة على اكتشاف خوارزميات جديدة لهجمات الخصومية ذات الصندوق الأبيض (white-box adversarial attack algorithms)، تتفوق بشكل \textbf{كبير على جميع الطرق الموجودة (أكثر من 30 طريقة)} في تقييمات اختراق الحماية (jailbreaking) وحقن الأوامر (prompt injection). بدءًا من تطبيقات هجمات موجودة، مثل GCG~\citep{zou2023universal}، يقوم الوكيل بإجراء دورات تكرارية لإنتاج خوارزميات جديدة تحقق معدل نجاح هجمة يصل إلى 40% على استعلامات CBRN الموجهة إلى نموذج GPT-OSS-Safeguard-20B، مقارنةً بما لا يتجاوز 10% للخوارزميات الحالية (\Cref{fig:teaser}، اليسار). وتتميز الخوارزميات المكتشفة بقدرة تعميم عالية: حيث تنتقل الهجمات المُحسَّنة على نماذج بديلة (surrogate models) مباشرةً إلى نماذج مُحتجَزة (held-out models)، محققةً \textbf{معدل نجاح هجمة (ASR) يبلغ 100% ضد نموذج Meta-SecAlign-70B} \citep{chen2025secalign}، مقابل 56% لأفضل خط أساس (\Cref{fig:teaser}، الوسط). وبتمديد لنتائج دراسة \cite{carlini2025autoadvexbench}، تُعدّ نتائجنا دليلًا مبكرًا على إمكانية أتمتة أبحاث الأمان والسلامة التدريجية باستخدام وكلاء نماذج اللغة الكبيرة (LLM agents). وتُعدّ اختبارات الاختراق الخصومية ذات الصندوق الأبيض (white-box adversarial red-teaming) مناسبةً بشكل خاص لهذا الغرض: حيث توفر الطرق القائمة نقاط انطلاق قوية، كما أن هدف التحسين يُنتج تغذية راجعة كثيفة وكمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كلاوديني: أوتوريسيرتش تكتشف خوارزميات هجمات معادية حديثة الذروة لـ LLMs | مستندات | HyperAI