منذ 2 أشهر

متابعة الندرة في متحولات الرؤية: استكشاف شامل من البداية إلى النهاية

Chen, Tianlong ; Cheng, Yu ; Gan, Zhe ; Yuan, Lu ; Zhang, Lei ; Wang, Zhangyang

الملخص

لقد حظيت نماذج Vision Transformers (ViTs) بشعبية هائلة مؤخرًا، ولكن حجمها الكبير وتكلفة تدريبها لا تزال مثيرة للقلق. غالبًا ما تتطلب التقليم التقليدي بعد التدريب ميزانيات تدريب أعلى. في المقابل، يهدف هذا البحث إلى تقليص ذاكرة التدريب والتعقيد الاستدلالي دون المساس بدقة الأداء القابلة للتحقيق. قمنا بأول استكشاف شامل من نوعه لتبني نهج متكامل يدمج الندرة في ViTs "من البداية إلى النهاية". بصفة خاصة، بدلاً من تدريب ViTs كاملة، نقوم باستخراج وتدريب شبكات فرعية نادرة بشكل ديناميكي مع الالتزام بميزانية صغيرة ثابتة للمعلمات. يُحسِّن نهجنا هذا المعلمات النموذجية ويستكشف الاتصال طوال فترة التدريب، مما يؤدي في النهاية إلى شبكة واحدة نادرة كمخرج نهائي. يتم توسيع هذا النهج بسلاسة من الندرة غير المنظمة إلى الندرة المنظمة، وذلك عن طريق الأخذ في الاعتبار توجيه عملية تقليم وإعادة نمو رؤوس الذات-الانتباه داخل ViTs. بالإضافة إلى ذلك، نقوم باستكشاف مشترك لندرة البيانات والندرة المعمارية لتحقيق كفاءة إضافية من خلال دمج محدد رموز قابل للتعلم لتحديد الرقع الأكثر أهمية حاليًا بشكل متكيف. تؤكد النتائج الواسعة على ImageNet باستخدام مجموعة متنوعة من الهياكل الخلفية لـ ViT فعالية مقترحاتنا التي تحقق خفضًا كبيرًا في التكلفة الحسابية وتأثيرًا ضئيلًا جدًا على التعميم. ربما ما هو أكثر إدهاشًا هو أننا وجدنا أن التدريب النادر المقترح يمكن أحيانًا أن يحسن دقة ViT بدلاً من المساومة عليها، مما يجعل الندرة وجبة مجانية "مغرِّرة". على سبيل المثال، عند تقليم DeiT-Small بنسبة (5٪، 50٪) لندرة (البيانات، المعمارية)، فإن الدقة الفردية الأولى تتحسن بنسبة 0.28٪ مع توفير 49.32٪ من العمليات العائمة (FLOPs) و4.40٪ من وقت التشغيل. يمكن الوصول إلى شفرتنا المصدر عبر الرابط https://github.com/VITA-Group/SViTE.