AutoFormer: بحث عن نماذج Transformers للتمييز البصري

في الآونة الأخيرة، أظهرت النماذج القائمة بالكامل على الترانسفورمر إمكانات كبيرة في المهام البصرية مثل تصنيف الصور والكشف عنها. ومع ذلك، فإن تصميم شبكات الترانسفورمر يشكل تحديًا كبيرًا. وقد لوحظ أن العمق، وحجم التضمين، وعدد الرؤوس يمكن أن يؤثرا بشكل كبير على أداء الترانسفورمر البصري. وقد تم في النماذج السابقة ضبط هذه الأبعاد بناءً على التصميم اليدوي. في هذا العمل، نقترح إطارًا جديدًا لاستكشاف البنية المعمارية في مرة واحدة، يُدعى AutoFormer، مخصصًا لاستكشاف الترانسفورمر البصري. يقوم AutoFormer بتداخل أوزان الكتل المختلفة في الطبقات نفسها أثناء تدريب الشبكة الفائقة (supernet). وبفضل هذه الاستراتيجية، يمكن للشبكة الفائقة المدربة أن تدعم تدريب آلاف الشبكات الفرعية بشكل ممتاز. وبشكل خاص، تكون أداء هذه الشبكات الفرعية، التي ترث أوزانها من الشبكة الفائقة، مماثلة لأداء الشبكات التي تم إعادة تدريبها من الصفر. علاوةً على ذلك، تتفوق النماذج المستخرجة، التي نشير إليها باسم AutoFormers، على أحدث النماذج الحالية مثل ViT وDeiT. وبشكل خاص، تحقق AutoFormer-tiny/small/base دقة أعلى من 74.7% / 81.7% / 82.4% في معيار top-1 على ImageNet، مع 5.7 مليون / 22.9 مليون / 53.7 مليون معلمة على التوالي. وأخيرًا، نتحقق من قابلية نقل AutoFormer من خلال عرض الأداء على معايير تطبيقية لاحقة وتجارب تجميع (distillation). يمكن الوصول إلى الكود والنماذج من خلال الرابط: https://github.com/microsoft/AutoML.