تصنيف قوي من خلال نموذج تشتت واحد

تم تطبيق النماذج الانتشارية لتحسين المقاومة العدائية لل classifyers الصورية من خلال تنقية الضوضاء العدائية أو إنشاء بيانات واقعية لتدريب عدائي. ومع ذلك، يمكن تجاوز تنقية النماذج الانتشارية بواسطة هجمات متطورة أكثر، في حين أن التدريب العدائي لا يحقق أداءً جيدًا أمام التهديدات غير المرئية، مما يُظهر القيود الحتمية لهذه الأساليب. لاستغلال أقصى قدر من القدرة التعبيرية للنماذج الانتشارية، يقترح هذا البحث تصنيفًا انتشاريًا مُقاومًا (RDC)، وهو تصنيفٌ توليدِي مُبنى على نموذج انتشاري مُدرّب مسبقًا ليكون مقاومًا للهجمات العدائية. يقوم RDC أولاً بتحقيق أقصى احتمال للبيانات لקלט معين، ثم يُقدّر احتمالات الفئة للبيانات المُحسّنة باستخدام الاحتمال الشرطي المُقدّر بواسطة النموذج الانتشاري من خلال نظرية بايز. ولتقليل التكلفة الحسابية بشكل أكبر، نقترح نواة انتشارية جديدة تُسمى "الانتشار متعدد الرؤوس" (multi-head diffusion)، ونطوّر استراتيجيات عينة فعالة. وبما أن RDC لا يحتاج إلى تدريب على هجمات عدائية محددة، نُظهر أنه أكثر قابلية للتعميم لمقاومة مجموعة متنوعة من التهديدات غير المرئية. وبشكل خاص، حقق RDC دقة مقاومة تبلغ 75.67% ضد هجمات متطورة محدودة بالقيمة المطلقة (\ell_\infty) مع (\varepsilon_\infty = 8/255) على مجموعة بيانات CIFAR-10، متفوّقًا على النماذج السابقة المُدرّبة عدائيًا المُتميزة بـ +4.77%. تُبرز النتائج الإمكانات الكامنة للتصنيفات التوليدية باستخدام النماذج الانتشارية المُدرّبة مسبقًا لتعزيز المقاومة العدائية مقارنةً بالتصنيفات التمييزية الشائعة الدراسة. يُمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/huanranchen/DiffusionClassifier}.