تعلم حدود الدمج والتقليم للرموز في نماذج التحويل البصري

أثبتت نماذج التحويل المرئي (Vision Transformers) نجاحًا ملحوظًا في مجموعة واسعة من مهام الرؤية الحاسوبية على مدى السنوات الأخيرة. ومع ذلك، تظل التكاليف الحسابية العالية عائقًا كبيرًا أمام استخدامها العملي. بشكل خاص، تعتمد تعقيدات نماذج التحويل على عدد الرموز الدخلية اعتمادًا تربيعيًا. ولذلك، تم اقتراح تقنيات لخفض عدد الرموز الدخلية التي يجب معالجتها. يقدم هذا البحث طريقة جديدة تُعرف باسم دمج وإزالة الرموز باستخدام حدود التعلم (Learned Thresholds Token Merging and Pruning - LTMP)، والتي تستفيد من قوة كل من دمج الرموز وإزالتها. يستخدم LTMP وحدات التحكم في الحدود المُتعلمة التي تحدد بشكل ديناميكي أي الرموز يجب دمجها وأيها يجب إزالتها. نوضح نهجنا من خلال تجارب واسعة النطاق على نماذج التحويل المرئي في مهمة تصنيف ImageNet. أظهرت نتائجنا أن LTMP تحقق أفضل دقة مقارنة بالطرق السابقة عبر معدلات الخفض المختلفة، مع الحاجة إلى عصر واحد فقط للضبط الدقيق، وهو ما يسرع العملية بمقدار عشري عن الطرق السابقة. يمكن الحصول على الكود من الرابط: https://github.com/Mxbonn/ltmp .