HyperAIHyperAI
منذ 17 أيام

تعزيز التمثيل البصري من خلال التدريب العدواني المنفصل

Xiaofeng Mao, Yuefeng Chen, Ranjie Duan, Yao Zhu, Gege Qi, Shaokai Ye, Xiaodan Li, Rong Zhang, Hui Xue
تعزيز التمثيل البصري من خلال التدريب العدواني المنفصل
الملخص

التدريب العدواني (AT)، الذي يُعتبر من أكثر الأساليب فعالية في حماية النماذج من الأمثلة العدوانية، يُعدّ في الغالب مضرًا لأداء النموذج القياسي، مما يحد من فعاليته في التطبيقات والتصنيع على نطاق صناعي واسع. ومن المثير للاهتمام أن هذه الظاهرة تكون عكسية تمامًا في مهام معالجة اللغة الطبيعية (NLP)، حيث يمكن للتدريب العدواني أن يُفيد حتى في تحسين التعميم. لاحظنا أن الميزة التي يُقدّمها التدريب العدواني في مهام NLP قد تنبع من طبيعة الفضاء الإدخالي المتقطع والرمزي. وللاستفادة من هذه الميزة التي تتميّز بها نماذج NLP، نقترح نموذج التدريب العدواني المتقطع (DAT). يقوم DAT باستخدام VQGAN لإعادة تشكيل بيانات الصور إلى إدخالات متقطعة تشبه النصوص، أي ما يُعرف بـ"كلمات بصرية". ثم يُقلل من أقصى خطر على هذه الصور المتقطعة باستخدام اضطرابات عدوانية رمزية. كما نقدّم تفسيرًا من منظور التوزيع لتوضيح فعالية DAT. وبكونه تقنية يمكن دمجها بسهولة لتحسين التمثيل البصري، يحقق DAT تحسينًا كبيرًا في مهام متعددة تشمل تصنيف الصور، وكشف الكائنات، والتعلم الذاتي التوجيهي. وبشكل خاص، نجح النموذج المُدرّب مسبقًا باستخدام تقنية الترميز المُقنع (MAE) ثم التحسين الدقيق عبر DAT دون الحاجة إلى بيانات إضافية في تحقيق 31.40 في المئة من mCE على ImageNet-C، و32.77 في المئة من الدقة الأولى على Stylized-ImageNet، مما يُشكّل حالة جديدة من الأفضلية (SOTA). وستكون الكودات متاحة على الرابط: https://github.com/alibaba/easyrobust.