SPViT: تمكين متحولات الرؤية الأسرع من خلال تقليم الرموز الناعم

في الآونة الأخيرة، أثبتت نماذج Vision Transformer (ViT) قدرتها على تحقيق إنجازات جديدة متواصلة في مجال الرؤية الحاسوبية، ومع ذلك فإن التكلفة العالية للحسابات والذاكرة تجعل انتشارها في الإنتاج الصناعي صعبًا. يعتبر التقليم، وهو نموذج تقليدي لضغط النماذج لتحقيق كفاءة الأجهزة، قد تم تطبيقه على نطاق واسع في العديد من هياكل الشبكات العصبية العميقة (DNN). ومع ذلك، لا يزال غير واضح كيفية تنفيذ التقليم الحصري لهيكل ViT. بالنظر إلى ثلاثة نقاط رئيسية: خصائص الهيكل، وأنماط البيانات الداخلية في ViTs، ونشر الأجهزة المتصلة بالشبكة ذات الصلة، فقد استفدنا من ندرة الرموز المدخلية واقترحنا إطارًا للتقليم الناعم الواعي بالحسابات يمكن تطبيقه على نماذج Transformers البسيطة سواء كانت بنيتها مسطحة أو من نوع CNN، مثل Pooling-based ViT (PiT).بشكل أكثر تحديدًا، صممنا محدد رموز متعدد الرؤوس يعتمد على الانتباه الديناميكي، وهو وحدة خفيفة الوزن تقوم باختيار الرموز بشكل تكيفي حسب كل حالة. كما قمنا بتطوير تقنية تقليم ناعمة تقوم بدمج الرموز الأقل معلوماتية التي ينتجها وحدة الاختيار في رمز حزمة سيشارك في الحسابات اللاحقة بدلاً من التخلص منه تمامًا. يتم ربط إطارنا الخاص بين دقة النموذج وتقييدات الحسابات الخاصة بالأجهزة المتصلة بالشبكة من خلال استراتيجية التدريب الواعية بالحسابات المقترحة لدينا.تظهر النتائج التجريبية أن إطارنا الخاص يقلل بشكل كبير من تكلفة الحسابات لـ ViTs مع الحفاظ على أداء مشابه في تصنيف الصور. بالإضافة إلى ذلك، يمكن لإطارنا ضمان تحقيق النموذج المحدد للمواصفات المواردية للأجهزة المحمولة وFPGA وحتى تحقيق تنفيذ الوقت الحقيقي لـ DeiT-T على المنصات المحمولة. على سبيل المثال، طرحت طريقتنا وقت الاستجابة لـ DeiT-T إلى 26 ميلي ثانية (أفضل بنسبة 26٪ ~ 41٪ من الأعمال الموجودة)، مع زيادة دقة المرتبة الأولى بنسبة 0.25٪ ~ 4٪ على مجموعة بيانات ImageNet.