هجمات عدائية ضد نماذج التعلم الآلي الكبيرة المغلقة المصدر من خلال المحاذاة المثلى للسمات
Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

الملخص
تظل النماذج الكبيرة للغة متعددة الوسائط (MLLMs) عرضة للاختراقات العدائية القابلة للنقل. في حين أن الطرق الحالية تحقق عادةً هجمات موجهة من خلال محاذاة الميزات الشاملة – مثل رمز [CLS] في CLIP – بين العينات العدائية والعينات الهدف، فإنها غالبًا ما تتجاهل المعلومات المحلية الغنية المُشفرة في رموز اللوحات (patch tokens). هذا يؤدي إلى محاذاة غير مثلى وقابلية نقل محدودة، خصوصًا بالنسبة للنماذج المغلقة المصدر. لمعالجة هذه القيود، نقترح طريقة هجوم عدائي موجهة وقابلة للنقل تعتمد على محاذاة الميزات المثلى، تُسمى FOA-Attack، بهدف تحسين قدرة الهجوم العدائي على النقل. بشكل خاص، على المستوى الشامل، نُقدّم خسارة ميزات شاملة تعتمد على التشابه الجيبي (cosine similarity) لمحاذاة الميزات الخشنة للعينات العدائية مع تلك الخاصة بالعينات الهدف. وعلى المستوى المحلي، وبما أن النماذج القائمة على المُحَوِّلات (Transformers) تحتوي على تمثيلات محلية غنية، نستخدم تقنيات التجميع لاستخلاص أنماط محلية مكثفة لتقليل الميزات المحلية الزائدة. ثم نُصيغ محاذاة الميزات المحلية بين العينات العدائية والعينات الهدف كمشكلة نقل مثالي (Optimal Transport - OT)، ونُقدّم خسارة نقل مثالي مبني على التجميع المحلي لتحسين محاذاة الميزات الدقيقة. بالإضافة إلى ذلك، نقترح استراتيجية ترجيح ديناميكية للنماذج المتعددة لتوازن تأثير النماذج المختلفة أثناء إنشاء العينات العدائية، مما يعزز بشكل إضافي قابلية النقل. أظهرت التجارب الواسعة عبر مجموعة متنوعة من النماذج تفوق الطريقة المقترحة مقارنة بالطرق الرائدة في المجال، وخاصة في نقل الهجمات إلى النماذج متعددة الوسائط المغلقة المصدر.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.