التدريب المضاد الهرمي يُحسّن أداء ViT

يُعد التكبير العدواني للبيانات عنصراً أساسياً في القدرات القوية للتعميم الخاصة بمحولات الرؤية (Vision Transformer (ViT. واحدة من تقنيات تكبير البيانات هذه هي التدريب العدواني (Adversarial Training (AT؛ ومع ذلك، أظهرت العديد من الدراسات السابقة أن هذا النهج غالبًا ما يؤدي إلى دقة منخفضة على البيانات النظيفة. في هذه الدراسة، نقدّم تقنية جديدة تُسمى "التدريب العدواني الهرمي" (Pyramid Adversarial Training (PyramidAT، وهي تقنية بسيطة وفعّالة لتحسين الأداء العام لمحولات الرؤية. نُزامنها مع تقنية "مطابقة" لـ Dropout والتنظيم العشوائي للعمق (stochastic depth regularization)، والتي تستخدم نفس تهيئة الـ Dropout والتنظيم العشوائي للعمق على العينات النظيفة والعينات العدوانية. وتشبه التحسينات التي أُدخلت على الشبكات العصبية التلافيفية (CNNs) من خلال تقنية AdvProp (التي لا تُطبّق مباشرة على ViT)، فإن التدريب العدواني الهرمي يكسر التناقض بين الدقة على البيانات ضمن التوزيع (in-distribution) والمقاومة تجاه البيانات خارج التوزيع (out-of-distribution) بالنسبة لـ ViT والهياكل المرتبطة بها. ويؤدي ذلك إلى تحسين مطلق بنسبة 1.82% في دقة ImageNet النظيفة لنموذج ViT-B عند تدريبه فقط على بيانات ImageNet-1K، في الوقت الذي يُحسّن فيه الأداء على 7 مقاييس مقاومة ImageNet، بزيادات مطلقة تتراوح بين 1.76% و15.68%. ونُسجّل حالة جديدة من الأداء القياسي (state-of-the-art) على ImageNet-C (41.42 mCE)، وImageNet-R (53.92%)، وImageNet-Sketch (41.04%) دون الحاجة إلى بيانات إضافية، باستخدام فقط نموذج ViT-B/16 والتدريب العدواني الهرمي الذي قدّمناه. يُمكن الوصول إلى الشيفرة المصدرية لدينا عبر الموقع: pyramidat.github.io.