تنحيف الباث لتحسين كفاءة متحولات الرؤية

تتناول هذه الورقة البحثية مشكلة الكفاءة في متحولات الرؤية البصرية من خلال استكشاف الحسابات الزائدة في الشبكات المعطاة. وقد أثبتت الهندسة المعمارية للمتحولات الحديثة فعاليتها في تحقيق أداء ممتاز في سلسلة من مهام رؤية الكمبيوتر. ومع ذلك، مثلما هو الحال مع شبكات العصبونات التلافيفية، لا تزال التكلفة الحاسوبية الضخمة لمتحولات الرؤية مشكلة حادة. بالنظر إلى أن آلية الانتباه تقوم بتجميع الأجزاء المختلفة طبقة بطبقة، نقدم نهجًا جديدًا لتخفيض الأجزاء يقضي على الأجزاء غير المفيدة وفقًا للنمط من الأعلى إلى الأسفل. نحدد أولاً الأجزاء الفعالة في الطبقة الأخيرة ثم نستخدمها لإرشاد عملية اختيار الأجزاء في الطبقات السابقة. بالنسبة لكل طبقة، يتم تقريب تأثير الجزء على الميزة النهائية للإخراج، وسيتم إزالة الأجزاء ذات التأثير الأقل. تظهر النتائج التجريبية على مجموعات البيانات المرجعية أن الطريقة المقترحة يمكن أن تقلل بشكل كبير من التكاليف الحاسوبية لمتحولات الرؤية دون التأثير على أدائها. على سبيل المثال، يمكن تخفيض أكثر من 45٪ من العمليات العددية (FLOPs) لنموذج ViT-Ti بمقدار 0.2٪ فقط انخفاض في دقة التصنيف الأولى (top-1 accuracy) على مجموعة بيانات ImageNet.