HyperAIHyperAI
منذ 15 أيام

تدريب مُضاد مُوجه بحدود قابلة للتعلم

Jiequan Cui, Shu Liu, Liwei Wang, Jiaya Jia
تدريب مُضاد مُوجه بحدود قابلة للتعلم
الملخص

يُعد التدريب العدواني السابق مسؤولاً عن تعزيز مقاومة النموذج على حساب دقة البيانات الطبيعية. في هذه الورقة، نُقلل من تدهور الدقة على البيانات الطبيعية. نستخدم مخرجات النموذج (logits) من نموذج نظيف واحد لتوجيه عملية التعلم في نموذج آخر مقاوم، مع مراعاة أن مخرجات النموذج النظيف المدرب جيدًا تحتوي على أكثر السمات تمييزًا للبيانات الطبيعية، مثل الحدود الفاصلة القابلة للتعميم. تتمثل حلنا في تقييد مخرجات النموذج المقاوم عند إدخال أمثلة عدوانية، بحيث تصبح مشابهة لتلك المخرجات التي يُنتجها النموذج النظيف عند إدخال البيانات الطبيعية المقابلة. هذا يسمح للنموذج المقاوم بوراثة حدود التصنيف الخاصة بالنموذج النظيف. علاوةً على ذلك، لاحظنا أن هذا التوجيه للحدود لا يُحافظ فقط على دقة عالية على البيانات الطبيعية، بل يُسهم أيضًا في تحسين مقاومة النموذج، مما يفتح آفاقًا جديدة ويُسهم في التقدم في مجتمع الدراسات العدوانية. وأخيرًا، تُثبت التجارب الواسعة على مجموعات بيانات CIFAR-10 وCIFAR-100 وTiny ImageNet فعالية طريقة العمل لدينا. نحقق أداءً متفوقًا على مستوى الحالة الحالية (SOTA) في مقاومة النماذج على CIFAR-100 دون الحاجة إلى بيانات حقيقية أو اصطناعية إضافية، باستخدام معيار الهاجمات التلقائية (auto-attack) \footnote{\url{https://github.com/fra31/auto-attack}}. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط: \url{https://github.com/dvlab-research/LBGAT}.

تدريب مُضاد مُوجه بحدود قابلة للتعلم | أحدث الأوراق البحثية | HyperAI