الحذف المشترك وتقليل الرموز نحو ضغط أكثر عدوانية لـ متحولات الرؤية

رغم أن متحولات الرؤية (Vision Transformers - ViTs) أظهرت نتائج واعدة في العديد من مهام الرؤية الحاسوبية مؤخرًا، فإن تكلفتها الحسابية العالية تحد من تطبيقاتها العملية. وقد أظهرت الطرق السابقة التي تقضي على الرموز الزائدة توازنًا جيدًا بين الأداء والتكلفة الحسابية. ومع ذلك، يمكن أن تتسبب الأخطاء الناجمة عن استراتيجيات التقليص في فقدان كبير للمعلومات. كشفت تجاربنا الكمية أن تأثير الرموز المقلصة على الأداء يجب أن يكون ملحوظًا. لمعالجة هذه المشكلة، نقترح وحدة جديدة مشتركة للتقليص والسحق (Token Pruning & Squeezing - TPS) لضغط متحولات الرؤية بفعالية أعلى. أولاً، تقوم الوحدة TPS بالتقليص للحصول على المجموعات المحجوزة والمقلصة. ثانيًا، تقوم TPS بسحق المعلومات الموجودة في الرموز المقلصة إلى بعض الرموز المحجوزة عبر خطوات التوافق الأحادي مع الجيران الأقرب والدمج القائم على التشابه. عند المقارنة مع أفضل الطرق المتاحة حاليًا، يتفوق نهجنا عليها تحت جميع شدائد تقليص الرموز. بشكل خاص، عند تقليص ميزانيات الحوسبة لـ DeiT-tiny&small بنسبة 35٪، فإنه يحسن الدقة بنسبة 1٪-6٪ مقارنة بالأسس على تصنيف ImageNet. يمكن للطريقة المقترحة تسريع معدل الإنجاز لـ DeiT-small أكثر من DeiT-tiny، بينما تتجاوز دقتها DeiT-tiny بنسبة 4.78٪. أثبتت التجارب على مجموعة متنوعة من المتحولات فعالية طريقتنا، بينما أثبتت التجارب التحليلية صلابتنا الأعلى ضد أخطاء سياسة التقليص للرموز. يمكن الحصول على الشفرة البرمجية من الرابط التالي: https://github.com/megvii-research/TPS-CVPR2023.