تعزيز التمثيل البصري من خلال التدريب العدواني المنفصل

التدريب العدواني (AT)، الذي يُعتبر من أكثر الأساليب فعالية في حماية النماذج من الأمثلة العدوانية، يُعدّ في الغالب مضرًا لأداء النموذج القياسي، مما يحد من فعاليته في التطبيقات والتصنيع على نطاق صناعي واسع. ومن المثير للاهتمام أن هذه الظاهرة تكون عكسية تمامًا في مهام معالجة اللغة الطبيعية (NLP)، حيث يمكن للتدريب العدواني أن يُفيد حتى في تحسين التعميم. لاحظنا أن الميزة التي يُقدّمها التدريب العدواني في مهام NLP قد تنبع من طبيعة الفضاء الإدخالي المتقطع والرمزي. وللاستفادة من هذه الميزة التي تتميّز بها نماذج NLP، نقترح نموذج التدريب العدواني المتقطع (DAT). يقوم DAT باستخدام VQGAN لإعادة تشكيل بيانات الصور إلى إدخالات متقطعة تشبه النصوص، أي ما يُعرف بـ"كلمات بصرية". ثم يُقلل من أقصى خطر على هذه الصور المتقطعة باستخدام اضطرابات عدوانية رمزية. كما نقدّم تفسيرًا من منظور التوزيع لتوضيح فعالية DAT. وبكونه تقنية يمكن دمجها بسهولة لتحسين التمثيل البصري، يحقق DAT تحسينًا كبيرًا في مهام متعددة تشمل تصنيف الصور، وكشف الكائنات، والتعلم الذاتي التوجيهي. وبشكل خاص، نجح النموذج المُدرّب مسبقًا باستخدام تقنية الترميز المُقنع (MAE) ثم التحسين الدقيق عبر DAT دون الحاجة إلى بيانات إضافية في تحقيق 31.40 في المئة من mCE على ImageNet-C، و32.77 في المئة من الدقة الأولى على Stylized-ImageNet، مما يُشكّل حالة جديدة من الأفضلية (SOTA). وستكون الكودات متاحة على الرابط: https://github.com/alibaba/easyrobust.